低出生体重の研究
これは、HosmerとLemeshowのApplied Logistic Regression(2000年、Wiley、第2版)の教科書のデータセットの1つです。この前向き研究の目的は、低出生体重児(体重2,500グラム未満)の出産に関連する危険因子を特定することでした。データは189人の女性で収集され、そのうち59人は低出生体重児、130人は正常出生体重児でした。重要であると考えられた4つの変数は、年齢、彼女の最後の月経期の被験者の体重、人種、および妊娠の最初の三半期の間の医師の訪問回数でした。
Rとして、data(birthwt, package="MASS")
またはStataでで利用できますwebuse lbw
。テキストバージョンがここに表示されます:lowbwt.dat(description)。ALR第7章のHosmerとLemeshowで説明されているように、ケースコントロール研究(1-1または1-3、年齢で一致)に拡張されたため、このデータセットにはいくつかのバージョンがあります。
私はこのデータセットに基づいて次の理由で入門コースを教えていました。
- 歴史的および疫学的観点から興味深い(データは1986年に収集された)。主なアイデアとその研究からどのような質問をすることができるかを理解するために、医学や統計学の予備知識は必要ありません。
- 本発明の基本的な関連試験(t検定、ANOVA、容易にそれを作るている混合型(連続、順序、及び公称)のいくつかの変数が利用可能であるχ2検定双方向テーブルの、オッズ比、コクランとアーミテージ傾向検定など)。さらに、出生時体重は継続的な測定値とバイナリインジケータ(2.5 kg以上)として利用できます:単純な線形モデルの構築を開始し、続いて多重回帰(前の探索的分析から選択された対象の予測子を使用)、 GLM(ロジスティック回帰)に切り替えて、おそらくカットオフの選択について議論します。
- さまざまなモデリングの視点(説明的または予測的アプローチ)、およびモデル開発時のサンプリングスキームの意味(層別/一致したケース)について議論することができます。
聴衆と統計ソフトウェアの専門知識のレベル、または一般的な統計に応じて強調できるその他のポイント。
Rで使用可能なデータセットに関しては、一部の予測子の自然順序付けにもかかわらず、カテゴリカル予測子は整数としてスコア付けされます(たとえば、母親の民族性については「1」=白、「2」=黒、「3」=その他) (例えば、以前の早産の数または医師の診察の回数)または明示的なラベルの使用(バイナリ変数に1/0の代わりに 'yes' / 'no'を使用することは常に良い考えです。 tは設計マトリックス内のすべてを変更します!)は単に存在しません。そのため、データ分析で測定レベルや測定単位を無視することで、どの問題が発生する可能性があるかを簡単に議論できます。
混合型の変数は、探索的分析を行い、単変量、二変量、または三変量の関係を要約するのにどのようなグラフィック表示が適切かを議論する際に興味深いものです。同様に、このデータセットのもう1つの興味深い側面は、すてきなサマリーテーブルを作成し、より一般的にはレポートを作成Hmisc::summary.formula
することです(ただし、コマンドはRの下で非常に簡単になります)。
HosmerとLemeshowは、被験者の機密性を保護するために実際のデータが変更されたと報告しました(p。25)。以前のJournal Clubの 1つで行われたように、データの機密性の問題について議論することは興味深いかもしれませんが、そのトランスクリプトを参照してください。(私はそれについて多くの詳細を述べないことを認めなければなりません。)
いくつかの欠損値または誤った値(統計学者の実際の生活における一般的な問題)を導入するのは簡単であり、議論(a)コードブック(Hmisc::describe
またはStataのcodebook
)または探索的グラフィックス(常にデータを最初にプロットする!) 、および(b)可能な修正(データの代入、リストごとの削除、または関連のペアごとの測定など)。