医療関係者の信頼できる間隔を要約する方法


21

スタンおよびフロントエンドパッケージを使用するrstanarmbrms、以前のような混合モデルで行ったように、ベイジアン方式でデータを簡単に分析できますlme。Kruschke-Gelman-Wagenmakers-etcの本や記事のほとんどを私の机に置いていますが、これらは、ベイジアンの怒りのSkyllaとメディカルレビュアーのCharybdisの間で引き裂かれた、医療聴衆のために結果を要約する方法を教えてくれません( 「拡散的なものではなく、重要なものが必要です」)。

例:胃の頻度(1 /分)は3つのグループで測定されます。健康なコントロールが基準です。参加者ごとにいくつかの測定値がありますので、頻繁に使用する次の混合モデルを使用しましたlme

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

わずかに編集された結果:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

簡単にするために、2 * stdエラーを95%CIとして使用します。

頻繁な文脈では、私はこれを次のように要約したでしょう。

  • 対照群では、推定頻度は2.7 /分でした(ここにCIを追加することもできますが、絶対CIと差分CIによって生じる混乱のために、これを避けることがあります)。
  • no_symptomsグループでは、頻度は0.4 /分、CI(0.11〜0.59)/分、p = 0.006でコントロールよりも高かった。
  • with_symptomsグループでは、頻度が0.2 /分、CI(-0.04〜0.4)/分、p = 0.11でコントロールよりも高かった。

これは医学出版物の許容可能な最大の複雑さについてであり、レビューアはおそらく2番目のケースで「重要ではない」を追加するように頼みます。

これは、stan_lmerデフォルトの事前確率と同じです。

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

ここで、CredIは90%の信頼できる間隔です(90%がデフォルトとして使用される理由は、rstanarmビネットを参照してください)。

質問:

  • 上記の要約をベイジアン世界に翻訳する方法は?
  • 事前協議はどの程度必要ですか?事前に言及するとき、論文は通常の「主観的な仮定」で戻ってくると確信しています。または、少なくとも「技術的な議論はしないでください」。しかし、すべてのベイジアン当局は、解釈が事前の状況でのみ有効であることを要求しています。
  • ベイズの概念を裏切ることなく、定式化の「重要な」サロゲートを提供するにはどうすればよいですか?「信じられないほど違う」(うーん...)またはほぼ間違いなく違う(「うおは...」のように聞こえます)

ジョナ・ガブリーとベン・グッドリッチ(2016)。rstanarm:スタンを介したベイジアン応用回帰モデリング。Rパッケージバージョン2.9.0-3。 https://CRAN.R-project.org/package=rstanarm

スタン開発チーム(2015)。Stan:確率とサンプリング用のC ++ライブラリ、バージョン2.8.0。URL http://mc-stan.org/

ポール・クリスチャン・バークナー(2016)。brms:スタンを使用したベイジアン回帰モデル。Rパッケージバージョン0.8.0。https://CRAN.R-project.org/package=brms

Pinheiro J、Bates D、DebRoy S、Sarkar DおよびRコアチーム(2016)。nlme:線形および非線形混合効果モデル。Rパッケージバージョン3.1-124、http://CRAN.R-project.org/package=nlme>。


1
私は医学雑誌のレビュアー/編集者の経験はありませんが、切片が負である確率がゼロ、「症状なし」ダミー変数の係数が負である確率がゼロ、そして約5%の確率があると言ってみてください。 「症状あり」ダミー変数の係数が負であること。を実行することで、約5%より正確に定量化できmean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0)ます。
ベングッドリッチ

私たちはそのことを考えましたが、5%は大丈夫と思われました。研究者はそれを「重要性」に翻訳しますが、通常は重要性を誤解しているため、二重否定によって正しいでしょう。一方、「ゼロ確率」はキラーです。それを受け入れますか?たぶん<1 / Reff(p <0.001)は近似値でしょうか?しかし、再び:p <xxxを書くとき、私は重要な世界にいます。
ディーターメンネ

上記のn_effのReffを修正します。
ディーターメンネ

1
n_effは平均が推定される精度に関係するため、個人的には、テール確率が「n_effチャンスで1未満」であるとは言いません。おそらく、係数をオンにするために1つの負の引き分けを得るのに十分な長さのチェーンを実行し、group_nosymptomsそれが負である確率はであると言え1 / drawsます。しかし、インターセプトでは、チェーンがこれらのデータのネガティブな領域に迷い込むことはないため、確率は未満であると言えます1 / draws
ベングッドリッチ

統計専門家のレビューアではなく、ドメイン専門家のp値を含めることについて、いくつかの良いアドバイスを得ました:stats.stackexchange.com/questions/148649/…。p = 0の場合、p <minimum(n_eff of all parameters)を保守的な上限として使用しました。
stijn

回答:


16

簡単な考え:

1)重要な問題は、あなたが聴衆に答えようとしている質問に当てはまることです。それは、統計分析からどのような情報を求めるかを決定するからです。この場合、グループ間の差の大きさ(または、聴衆にとってより親しみやすい尺度であれば、グループの比率の大きさ)を推定したいようです。違いの大きさは、質問で提示した分析によって直接提供されません。しかし、ベイジアン分析から必要なものを取得するのは簡単です。差異(または比率)の事後分布が必要です。次に、差(または比率)の事後分布から、次のような直接確率ステートメントを作成できます。

「最も信頼できる95%の差は、[95%HDIの下限]と[95%HDIの上限]の間に収まります」(ここでは、95%最高密度間隔[HDI]を信頼できる間隔として使用しています。 「最も信頼できる」ものとして光沢付けされている最高密度パラメータ値を定義します)

医学雑誌の聴衆はその声明を直観的かつ正しく理解するだろう。なぜなら、聴衆は、それが頻繁な信頼区間の意味だと一般に考えているからだ(たとえそれが頻繁な信頼区間の意味ではないとしても)。

スタンまたはJAGSとの違い(または比率)はどのようにして得ますか?完成したMCMCチェーンの後処理だけです。チェーンの各ステップで、関連する差異(または比率)を計算してから、差異(または比率)の事後分布を調べます。例はDBDA2E https://sites.google.com/site/doingbayesiandataanalysis/にあります。MCMCの場合は一般に図7.9(p。177)、JAGSの場合は図8.6(p。211 )、Stanの場合はセクション16.3(p。 。468)など!

2)ゼロの差が拒否されるかどうかについての説明を強制する伝統がある場合、2つのベイジアンオプションがあります。

2A)1つのオプションは、ゼロに近い間隔に関する確率ステートメントと、HDIとの関係を作成することです。このために、実際の等価領域(ROPE)をゼロ付近に設定します。これは、適用されるドメインに適した決定しきい値にすぎません---差の大きさはごくわずかですか?このような境界の設定は、たとえば臨床的な非劣性試験で日常的に行われています。フィールドに「効果サイズ」の尺度がある場合、「小さな」効果サイズの規則があり、ROPEの制限は、たとえば小さな効果の半分になります。次に、次のような直接的な確率ステートメントを作成できます。

「差の事後分布のわずか1.2%が実質的にゼロに等しい」

そして

「最も信頼できる95%の差はすべてゼロと実質的に同等ではないため(つまり、95%のHDIとROPEは重複しません)、したがってゼロを拒否します。」(事後分布からの確率ステートメントと、そのステートメントに基づく後続の決定との違いに注意してください)

95%の最も信頼できる値がすべて実質的にゼロと同等である場合、実用的な目的でゼロの差を受け入れることもできます。

2B)2番目のベイジアンオプションは、ベイジアン帰無仮説検定です。(上記の方法「仮説検定」と呼ばれます!)ベイジアン帰無仮説検定は、差がゼロにしかならないことを前提とする事前分布と、差が可能性の拡散範囲であると想定する代替事前分布とのベイズモデル比較を行います。このようなモデル比較の結果は、(通常)代替分布の特定の選択に非常に強く依存するため、代替事前分布の選択については慎重に正当化する必要があります。モデル比較が真に意味のあるものになるように、nullと代替の両方に少なくとも穏やかな情報に基づいた事前分布を使用することが最善です。モデル比較は異なる質問に対処しているため、モデル比較はグループ間の差異の推定とは異なる情報を提供することに注意してください。したがって、モデルを比較しても、

Stan / JAGS / MCMCの出力からベイズの帰無仮説検定を行う方法があるかもしれませんが、この場合はわかりません。たとえば、ベイズ因子に対してサベージディッキー近似を試みることもできますが、それは差の事前密度を知ることに依存するため、事前の数学的分析または追加MCMC近似が必要になります。

null値について決定する2つの方法については、Ch。DBDA2Eの12 https://sites.google.com/site/doingbayesiandataanalysis/。しかし、null値を評価する「適切な」方法についての議論によって、この議論が脇道に追い込まれたくはありません。それらはただ異なり、異なる情報を提供します。私の返信の主なポイントは、上記のポイント1です。グループ間の違いの事後分布を見てください。


3
当サイトへようこそ!あなたが私たちのコミュニティの一員になることは素晴らしいことです!
ティム

アカウントをこのstats.stackexchange.com/users/16592(これもあなたのものと思われます)とマージしたい場合は、stats.stackexchange.com / contactから自動的に行うことができます。
アメーバは、モニカを

ここで説明する仮説検定は、brmsを使用して実行できます。参照:github.com/paul-buerkner/brms
bjw

3

SOのエチケットに続いて、これは@John K. Kruschkeへのコメントとして書かれているはずですが、長いコメントは構造化が困難です。ごめんなさい。

  • @John K. Kruschkeは次のように書いています:完成したMCMCチェーンの後処理だけで...

lower_CredIそしてupper_CredIあなたは、完全なMCMCチェーンから述べたように、オリジナルのポストで計算して、わずかにとのより良い比較のために再フォーマットされlmeた出力。HDIを好む一方で、これらは単純な分位数です。この例の対称的な後方では、大きな違いはありません。

  • ロープとエフェクトサイズ

倫理委員会への適用を見てきましたが、効果の大きさについての仮定を述べずに統計力が計算されました。「臨床的に関連する効果」を定義する方法がない場合でも、医学研究者に概念を説明することは困難です。非劣性試験の方が少し簡単ですが、これらの試験はそれほど頻繁に試験の対象ではありません。

したがって、ROPESを導入することは受け入れられないことは間違いありません。前にp値のように持ち帰る数値は1つしかないため、ベイズ因子が機能する場合があります。

  • 事前

スタンチームの@John K. Kruschkeと@Ben Goodrichのどちらも先例に言及していないことに驚いています。このテーマに関するほとんどの論文は、結果を提示する際に、以前の感応度の詳細な議論を求めています。

あなたの本の次の版で-できればスタンと一緒に-選択した例に「100語でこれを(非統計的な論文で)発行する方法」というボックスを追加できたらいいですね。私があなたの第23.1章を一言で言うと、典型的な医学研究論文は100ページと数字になります...


*主なポイントは、差異の事後分布(グループ間、グループの組み合わせ間)を調べることでした。MCMCチェーンの後処理が必要なのはそれです。
ジョンK.クルシュケ

* ROPE:あなたは「ROPEが受け入れられないことを確信している」と「医学研究者に概念を説明することは困難です」。ベイズ因子は決定のために特定のBFしきい値のさらに詳細な説明と正当化を必要とするため、ベイズ因子がどのように説明しやすく、受け入れられたかはわかりません!私は、あなたの聴衆は頻繁なフレームワークの中で永続的に骨化されていると思っているようです。その場合は、頻度の高い統計情報を使用するか、より賢明なジャーナルに作品を提出してください。
ジョンK.クルシュケ

* 23.1章の推奨事項については誇張しすぎますが、特にここで使用するような単純なモデルの場合、実際には少量のテキストで簡潔に対処できます。次のコメントにつづく...
ジョンK. Kruschke

1
(i)ベイジアン使用の動機付け-豊富な情報を持つ事後分布を提供します。(ii)モデルとそのパラメーターを説明します。この場合は簡単です。(iii)事前確率を正当化する-この場合も、事後に実質的に影響を及ぼさない拡散事前確率を使用したと言っても、ささいなことです。(ただし、事前確率が重要であるベイズ因子を使用する場合はそうではありません。)(iv)MCMCチェーンの滑らかさを報告します。ESSがすべてのパラメーターと違いについて約10,000だったとは簡単です。次のコメントにつづく...
ジョンK. Kruschke

1
(v)事後の解釈:関心のある違いごとに事後の中心傾向(モードなど)とその95%HDIを述べるだけです。ツイートほど短くはありませんが、ほんの数段落です。
ジョンK.クルシュケ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.