タグ付けされた質問 「diagnostic」

診断指標(残差や残差から計算されたいくつかの要約統計など)は、データへのモデルの適合の品質のある側面を評価するために使用されます。

2
線形混合モデルの分散の残差診断と均一性
この質問をする前に、私は私たちのサイトを検索しましたし、同様の質問の多くを見つけ、(のようにここでは、ここでは、とここ)。しかし、これらの関連する質問は十分に対応または議論されていないと感じているため、この質問を再度提起したいと思います。こういう質問をもっとわかりやすく説明してほしいという聴衆がたくさんいると思います。 私の質問については、第一の線形混合効果モデルを考慮し、、線形固定効果成分である、対応する追加の設計行列でランダム効果パラメータ、。また、は通常のエラー項です。y=Xβ+Zγ+ϵy=Xβ+Zγ+ϵ \mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon} ZXβXβX\boldsymbol \betaZZ\mathbf{Z}ε 〜N (0 、σ 2 I)γγ\boldsymbol \gammaϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I}) 唯一の固定効果因子は、3つの異なるレベルを持つカテゴリカル変数Treatmentであると仮定します。そして、唯一の変量効果因子は変数Subjectです。とはいえ、固定治療効果とランダムな被験者効果を持つ混合効果モデルがあります。 私の質問はこうです: 従来の線形回帰モデルと同様に、線形混合モデル設定に分散の仮定の均一性はありますか?もしそうなら、上記の線形混合モデル問題の文脈において、仮定は具体的に何を意味しますか?評価する必要がある他の重要な仮定は何ですか? 私の考え:はい。仮定(つまり、エラーゼロ平均、および分散が等しい)は、まだここからです:。従来の線形回帰モデルの設定では、「エラーの分散(または従属変数の分散のみ)は、3つの処理レベルすべてにわたって一定である」と仮定できます。しかし、混合モデル設定でこの仮定をどのように説明できるか迷っています。「分散は被験者の条件付けの3つのレベルで一定ですか?」ϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I}) 残差と影響力診断に関するSASのオンラインドキュメント二つの異なる残差を育て、すなわち、限界残差、と条件付き残差、 私の質問は、2つの残差は何に使用されるのですか?それらをどのように使用して、均質性の仮定を確認できますか?私には、モデルのに対応しているため、均一性の問題に対処するために限界残差のみを使用できます。ここでの私の理解は正しいですか? R …

3
ロジスティック回帰の残差とクックの距離
エラー項の一定分散や残差の正規性など、ロジスティック回帰のエラーに関する特定の仮定はありますか? また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?

1
残差のどのようなフィット後分析を使用しますか?
OLS多重線形回帰を実行する場合、近似値に対して残差をプロットするのではなく、(内部)スチューデント化残差を近似値に対してプロットします(共変量の場合も同様)。これらの残差は次のように定義されます。 e∗i=eis2(1−hii)−−−−−−−−−√ei∗=eis2(1−hii)\begin{equation} e^*_i = \frac{e_i}{\sqrt{s^2 (1-h_{ii})}} \end{equation} ここで、は残差、h i iはハット行列の対角要素です。Rでこれらのスチューデント化された残差を取得するには、コマンドを使用できます。eieie_ihiihiih_{ii}rstandard この文脈で人々が日常的に使用する残差のタイプは何ですか?たとえば、だけを使用するのか、それともジャックナイフ残差を使用するのか、それとも完全に別のものを使用するのか。eieie_i 注:誰も使用しない新しいタイプの残差を定義する論文にはあまり興味がありません。

3
この残差プロットをどのように解釈すればよいですか?
このグラフを解釈できません。私の従属変数は、ショーで販売される映画チケットの総数です。独立変数は、ショーの前に残った日数、季節性ダミー変数(曜日、年、月、休日)、価格、日付までに販売されたチケット、映画の評価、映画の種類(スリラー、コメディなど)です。 )。また、映画館の定員は固定ですのでご了承ください。つまり、最大xの人数のみをホストできます。線形回帰ソリューションを作成していますが、テストデータに適合していません。だから私は回帰診断から始めることを考えました。データは、需要を予測したい単一の映画館からのものです。 は多変量データセットです。日付ごとに、ショーの前日を表す90の重複行があります。したがって、2016年1月1日のレコードは90です。ショーの何日前かを示す 'lead_time'変数があります。つまり、2016年1月1日の場合、lead_timeの値が5であれば、ショーの日付の5日前までチケットが販売されます。従属変数、販売されたチケットの合計では、同じ値が90回得られます。 また、余談として、残差プロットを解釈して後でモデルを改善する方法を説明した本はありますか?

1
dfbetasを手動で計算する方法
Rでの関数のdfbetas()動作を再現しようとしています。 dfbeta() 問題ではありません...ここに一連のベクトルがあります: x <- c(0.512, 0.166, -0.142, -0.614, 12.72) y <- c(0.545, -0.02, -0.137, -0.751, 1.344) 次のように2つの回帰モデルを当てはめる場合: fit1 <- lm(y ~ x) fit2 <- lm(y[-5] ~ x[-5]) 最後のポイントを削除すると、非常に異なる勾配(青い線-急)になることがわかります。 これは、勾配の変化に反映されています。 fit1$coeff[2] - fit2$coeff[2] -0.9754245 これdfbeta(fit1)は、5番目の値のと一致します。 (Intercept) x 1 0.182291949 -0.011780253 2 0.020129324 -0.001482465 3 -0.006317008 0.000513419 4 -0.207849024 0.019182219 5 …

2
いくつかのバイナリテストの結果を組み合わせる方法は?
まず、38年前に工学部で統計学のコースを1つ受けていたとしましょう。だから私はここで盲目的に飛んでいます。 疾患の診断テストは基本的に18種類ありますが、その結果はわかりました。各テストはバイナリです-はい/いいえ、テストを「調整」するために調整できるしきい値はありません。各テストについて、「ゴールドスタンダード」と比較した場合の真/偽陽性/陰性の表向きは有効なデータがあり、特異性と感度の数値(およびそのデータから導出できる他のすべて)が得られます。 もちろん、単独で使用するのに十分な特異性/感度を持つ単一のテストはありません。また、すべてのテストの結果を「目玉」にした場合、多くの場合、明らかな傾向はありません。 これらの数値を組み合わせて、(できれば)単一のテストよりも信頼性の高い最終スコアが得られるようにするための最良の方法は何でしょうか。これまでのところ、TRUEテストの特異性を組み合わせて spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N) FALSEの感度を組み合わせると、同じ方法でテストされます。比率 (1 - sens_combined) / (1 - spec_combined) 次に、10を超える値は信頼できるTRUEであり、0.1未満の値は信頼できるFALSEであり、かなり良い「最終スコア」をもたらすようです。 しかし、このスキームは真の厳密さを欠いており、テスト結果のいくつかの組み合わせでは、直感に反する答えを生成するようです。 特異性と感度を考慮して、複数のテストのテスト結果を組み合わせるより良い方法はありますか?(一部のテストの特異度は85、感度は15です。他のテストはその逆です。) OK、頭が痛い! 感度/特異度(%)のテスト1〜4があるとします。 65/50 25/70 30/60 85/35 テスト1と2は陽性、3と4は陰性です。 1が偽陽性であると推定される確率は(1-0.5)であり、2は(1-0.7)であるため、両方が偽陽性である確率は0.5 x 0.3 = 0.15です。 3および4が偽陰性であると推定される確率は、(1-0.3)および(1-0.85)または0.7 x 0.15 = 0.105です。 (現時点では、数値が合計されないという事実は無視します。) ただし、1と2が真陽性であると推定される確率は0.65と0.25 …

3
線形回帰の非線形性の正式なテストはありますか?
ロジスティック回帰にはBox-Tidwellがありますが、線形回帰ではそのようなことは何も知りません。私はこれをグラフィカルな機能として探すために部分残差プロットを使用しますが、正式なテストを見つけたいと思っています(正直に言うと、これの正式なテストを実行できるとは思えませんが、私は間違っている可能性があります)。

1
診断テストの精度調査のネットワークメタ分析を行うための、意味のある堅牢なアプローチはありますか?
背景:冠状動脈疾患のいくつかの画像モダリティを含む系統的レビューに取り組んでいますが、エビデンスネットワークは非常に大きく、さまざまなモダリティも含まれています。 ネットワークメタ分析は、ランダム化比較試験の確立されたアプローチであり、WinBUGS、Stata、R、およびSASでいくつかの潜在的なアプローチを利用できます。 ただし、診断テストの精度調査のネットワークメタ分析を実施できるかどうかは知りません。 質問:診断テストの精度調査のネットワークメタ分析を実施するための、意味のある堅牢なアプローチはありますか? 試み:私の考えでは、診断オッズ比(DOR)を効果の推定値として使用し、たとえばnetmetaRパッケージまたは同様のアプローチを使用して、エビデンスネットワークフレームワーク内の標準的な手法でプールすることができます。(参照:ネットワークのメタ分析に最適な方法はどれですか?) 更新: GGAと広範な検索からのフィードバックに基づいて、潜在的に適切なアプローチとして言及することができます:メンテンとレザッフルが診断テストの精度の研究のベイジアンネットワークメタ分析を実施するために提案したベイジアン法(メンテンとレザッフル、BMC Med Res Methodol 2015) 、およびNyagaらによって提案された2つの異なるベイズ法(Nyagaら、Stat Methods Med Res 2016、Nyagaら、Stat Methods Med Res 2016)。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.