統計分析の特定の側面を説明するのに適したデータセットは何ですか？

16

これは主観的なものであることに気づきましたが、お気に入りのデータセットとそれらが興味深いと思うものについて話すのはいいと思いました。そこには豊富なデータがあり、すべてのAPI（例：Datamob）と従来のデータセット（例：R data）について、非常に興味深い応答が得られると思います。

たとえば、「ボストンハウジング」データセット（不幸な影響にもかかわらず）などのデータセットと、その汎用性のための「mtcars」が常に好きでした。教育学の観点から、それらを使用した多種多様な統計手法のメリットを示すことができます。Anderson / Fisherのアヤメのデータセットは、常に私の心の中にあります。

考え？

dataset

— DA
ソース

2

私の論文に使用されているもの、それを正しく分析すれば博士号が得られるからです。>

— Fomite

3

Cross Validatedへようこそ！これは、ディスカッションフォーラムではなく、実際の回答を含む質問のQ＆Aサイトとして設計されています。したがって、これがこのサイトで私たちが望む質問のタイプだとは思いません。FAQをご覧ください。

— マイケルマクゴー

4

Q＆Aとして設計されていることは承知していますが、「お気に入りの統計漫画は何ですか？」高く評価されたので、これはひどく不適切ではないと思いました。特に教育学的に、誰かがデータ分析と探索技術について学ぼうとしている場合、豊富な構造を提供し、それらの背後にある多くの歴史と研究を持っている公開データセットに関するフィードバックを得ることが役立つかもしれません。

— DA

4

徹底的かつ議論的な回答は、データ分析の特定の側面に関する将来の質問のサポートとして役立つ可能性があると付け加えますが、私はこれを（建設的ではなく）閉じる必要があるかどうかをコミュニティに決定させたいと思います。私はこれをCWに変換しています。なぜなら、明らかに、単一のベストアンサーは存在しないからです。

— CHL

2

この質問とその回答は私にとって非常に役立ちます。削除しないでください。

— 12

12

低出生体重の研究

これは、HosmerとLemeshowのApplied Logistic Regression（2000年、Wiley、第2版）の教科書のデータセットの1つです。この前向き研究の目的は、低出生体重児（体重2,500グラム未満）の出産に関連する危険因子を特定することでした。データは189人の女性で収集され、そのうち59人は低出生体重児、130人は正常出生体重児でした。重要であると考えられた4つの変数は、年齢、彼女の最後の月経期の被験者の体重、人種、および妊娠の最初の三半期の間の医師の訪問回数でした。

Rとして、data(birthwt, package="MASS")またはStataでで利用できますwebuse lbw。テキストバージョンがここに表示されます：lowbwt.dat（description）。ALR第7章のHosmerとLemeshowで説明されているように、ケースコントロール研究（1-1または1-3、年齢で一致）に拡張されたため、このデータセットにはいくつかのバージョンがあります。

私はこのデータセットに基づいて次の理由で入門コースを教えていました。

歴史的および疫学的観点から興味深い（データは1986年に収集された）。主なアイデアとその研究からどのような質問をすることができるかを理解するために、医学や統計学の予備知識は必要ありません。
本発明の基本的な関連試験（t検定、ANOVA、容易にそれを作るている混合型（連続、順序、及び公称）のいくつかの変数が利用可能である $\chi^2$ 検定双方向テーブルの、オッズ比、コクランとアーミテージ傾向検定など）。さらに、出生時体重は継続的な測定値とバイナリインジケータ（2.5 kg以上）として利用できます：単純な線形モデルの構築を開始し、続いて多重回帰（前の探索的分析から選択された対象の予測子を使用）、 GLM（ロジスティック回帰）に切り替えて、おそらくカットオフの選択について議論します。
さまざまなモデリングの視点（説明的または予測的アプローチ）、およびモデル開発時のサンプリングスキームの意味（層別/一致したケース）について議論することができます。

聴衆と統計ソフトウェアの専門知識のレベル、または一般的な統計に応じて強調できるその他のポイント。

Rで使用可能なデータセットに関しては、一部の予測子の自然順序付けにもかかわらず、カテゴリカル予測子は整数としてスコア付けされます（たとえば、母親の民族性については「1」=白、「2」=黒、「3」=その他）（例えば、以前の早産の数または医師の診察の回数）または明示的なラベルの使用（バイナリ変数に1/0の代わりに 'yes' / 'no'を使用することは常に良い考えです。 tは設計マトリックス内のすべてを変更します！）は単に存在しません。そのため、データ分析で測定レベルや測定単位を無視することで、どの問題が発生する可能性があるかを簡単に議論できます。
混合型の変数は、探索的分析を行い、単変量、二変量、または三変量の関係を要約するのにどのようなグラフィック表示が適切かを議論する際に興味深いものです。同様に、このデータセットのもう1つの興味深い側面は、すてきなサマリーテーブルを作成し、より一般的にはレポートを作成Hmisc::summary.formulaすることです（ただし、コマンドはRの下で非常に簡単になります）。
HosmerとLemeshowは、被験者の機密性を保護するために実際のデータが変更されたと報告しました（p。25）。以前のJournal Clubの 1つで行われたように、データの機密性の問題について議論することは興味深いかもしれませんが、そのトランスクリプトを参照してください。（私はそれについて多くの詳細を述べないことを認めなければなりません。）
いくつかの欠損値または誤った値（統計学者の実際の生活における一般的な問題）を導入するのは簡単であり、議論（a）コードブック（Hmisc::describeまたはStataのcodebook）または探索的グラフィックス（常にデータを最初にプロットする！）、および（b）可能な修正（データの代入、リストごとの削除、または関連のペアごとの測定など）。

— chl
ソース

+1このスレッドが有用であり、他の返信が目指すことができる（そしてそうすべき）解説の標準を提供することを示す模範的な答えを提供してくれてありがとう。

— whuber

これは素晴らしく、質問をすることで私が探していたものです。貴重な洞察に感謝します。

— DA

5

もちろん、Anscombe 4データセットは教育に非常に適しています。見た目は非常に異なりますが、単純な統計特性は同じです。

KDDカップデータセットhttp://www.kdd.org/kddcup/もお勧めしますこれらはよく研究されており、多くの解決策があるため、学生は結果を比較してランク付けを確認できます。

データマイニングコースでは、教授が使用できるマイクロアレイデータセットコンペティションを提供しました。http：//www.kdnuggets.com/data_mining_course/

— グレゴリー・ピアテツキー
ソース

Anscombe Quartetと同様の方法で教育目的のために設計された他のデータセットについては、この質問を参照してください。

— シルバーフィッシュ

3

Cal Polyの統計分析コースの多くは、すでにRにある「Iris」データセットを使用しました。これには、カテゴリ変数と高度に相関する変数があります。

— カーティス・ヴォリス
ソース

最後のポイントを拡大していただけますか？このデータセットは統計を教えるのにどのように役立ちますか？（AFAICT、アヤメのデータセットには1つのカテゴリ変数、つまりアヤメのクラスのみがあります。）

— chl

これは教育におけるIrisデータセットの使用に完全に関係するスレッドです。

— シルバーフィッシュ

3

「回帰モデリング戦略」でハレルが使用したタイタニックデータセット。ロジスティック回帰を説明するとき、性別、クラス、年齢を使用して生存率を説明するときに、彼の分析の簡略版を使用します。

Loynデータセットジェリー・クインとミック・キーオで「生物学者のための実験計画とデータ解析」で説明したが、複数の線形回帰のための変換を必要と素敵な問題が含まれています。

— ルイス・アピオラザ
ソース