2つのデバイスの精度を比較する統計的テスト


10

麻酔患者の体温を正確に37度に維持するように設計された2つの温度制御デバイスを比較しています。デバイスは、2つのグループを形成する500人の患者に適合しました。グループA(400人の患者)-デバイス1、グループB(100人の患者)-デバイス2。各患者の体温は1時間に1回36時間測定され、2つのグループで18000データポイントが得られました。36時間にわたって患者の体温をより正確に制御するデバイスを決定する必要があります。各時点の中央値を四分位バーで結んだ折れ線グラフを作成しましたが、視覚的には違いがあるようです。統計的差異を証明するためにデータをどのように分析すればよいですか?


デバイス間で患者を共有しましたか?あなたがそうしなかったならば、2つのグループの患者が広い意味で類似しているという追加の仮定があるはずです。
Aksakal 2014年

混合効果モデルはどうですか?各レベル(グループA / B)の標準誤差は、ある意味で、測定の精度を示します。時系列と患者を説明できます。
RomanLuštrik

回答:


2

o

この種のメトリックを定式化する場合、希望の温度から逸脱する温度にペナルティを課す「ペナルティ関数」を暗黙的に採用しています。1つのオプションは、望ましい温度の周りの分散を小さくすることで「精度」を測定することです(これを分散計算の固定平均として扱います)。分散は2乗誤差でペナルティを課すため、偏差が大きい場合は妥当なペナルティが与えられます。別のオプションは、より重いペナルティを課すことです(たとえば、3乗誤差)。別のオプションは、医療的に安全な温度範囲外の患者が各デバイスにいる時間を単に測定することです。いずれの場合も、選択するものはすべて、望ましい温度からの逸脱の認識された危険を反映する必要があります。

「良い精度」のメトリックを構成するものを決定したら、使用している精度の測定を可能にするという広い意味で定式化された、ある種の「異分散性テスト」を定式化します。自己相関の調整に関するwhuberのコメントに同意するかどうかはわかりません。それは実際には損失の定式化に依存します-結局のところ、長期間高温範囲に留まることはまさに最も危険なことである可能性があるため、自己相関を考慮して調整し直すと、終了する可能性があります非常に危険な結果に十分にペナルティを課すことに失敗しました。


0

これは、等分散性のテストです。これは時系列であるため、F検定ではなくBreusch-Pagan検定が適切な選択です。このテストは、2つのデバイス間の精度の同等性の問題にのみ回答します。精度のレベルは、分散の別の考え方です。

[編集:時間依存性を考慮して、テストを正しいものに変更しました]


3
このアプローチは合理的です。しかし、分散(平均温度周辺の分散のみを測定する)ではなく、目標温度周辺の分散を比較して、両方の目的を直接達成しないのはなぜですか?最初に確認する1つの重要な問題は、シリアル相関に関係します。それが高い場合、いくつかの修正を行う必要があります(テストの自由度を下げるなど)。もう1つの問題は損失に関するものです。損失関数はおそらく2次ではありません。おそらく人々は小さな変動に容易に耐えることができますが、大きな変動の発生は害を及ぼす可能性があります。それは探究されるべきです。
whuber

@whuberターゲットのtempの周りで比較することに関して、それが私なら、それはまさに私がすることです。OPは特に分散の質問をしただけなので、傾向に関係なく、直接それに対処する必要があります。:)
Gary Chung

2
F検定の問題は正常ではなく、おそらく独立性です。これらは時系列です。
Glen_b

@Glen_b私がそのポイントを逃したなんて信じられない。捕まえてくれてありがとう。編集。
Gary Chung

9
このサイトと、たとえばMathサイトとの違いは、統計的な質問への回答のかなりの部分で、OPが意図したとおりにフレームを構成するのに役立つことです。多くの場合、最初にここで尋ねられた質問に対する正しい答えは、役に立たないか、誤解を招くほどです。したがって、アクティブリーダーおよび回答者としての最初のタスクは、質問を役立つ適切な方法で解釈していることを確認し、OPの目的に最もよく対応する回答を提供することです。質問に対するコメントを使用して、明確な質問をし、解釈を検証します。
whuber

0

デバイスが37℃の温度をどれだけ維持できるかに興味がある場合は、次のいずれかを実行できます。

  1. 各ユーザーから入手可能なすべてのデータをそのまま使用するか、
  2. 各人の36試行を使用して、37Cからの1人あたりの平均偏差を推定します。

データは当然、反復測定処理に役立ちます。個人内試験をクラスターとして扱うことにより、デバイスの影響に関する誤って推定された信頼区間の可能性を減らします。さらに、両方のデバイス間またはデバイスとの相互作用として時間の影響をテストして、時間の経過による温度の維持が良好であったかどうかを確認できます。これらすべてを視覚化する方法を見つけることは非常に重要であり、あるアプローチを他のアプローチよりも提案する場合があります。以下の線に沿った何か:

library(dplyr)
library(lme4)

set.seed(42)
id <- rep(1:500, each=36)
time <- rep(1:36,500)
temp <- c(rnorm(36*400, 38,0.5), rnorm(36*100,37.25,0.5))
temp <- temp + 1/time

prox_37 <- temp - 37
group <- c(rep("A",36*400), rep("B",36*100))
graph_t <- ifelse(group=="A", time-0.25, time+0.25)
df <- data.frame(id,time,temp,prox_37,group, graph_t)

id_means <- group_by(df, id) %>% summarize(mean_37 = mean(prox_37))
id_means$group <- c(rep("A",400), rep("B",100))

boxplot(id_means$mean_37 ~ id_means$group)

plot(graph_t, prox_37, col=as.factor(group))
loess_fit <- loess(prox_37 ~ time, data = df)
lines(c(1:36), predict(loess_fit, newdata= c(1:36)) , col = "blue")

summary(t.test(mean_37 ~group, data=id_means))

model1 <- glm(prox_37 ~ as.factor(group), family = "gaussian", data=df)
model2 <- lmer(prox_37 ~ as.factor(group) + (1 | id), data=df)
model3 <- lmer(prox_37 ~ as.factor(group) + time + (1 | id), data=df)
model4 <- lmer(prox_37 ~ as.factor(group) + time + time*as.factor(group) + (1 | id), data=df)

AIC(model1)
summary(model2)
summary(model3)
summary(model4)

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.