予測は統計学者の能力を判断するための「黄金の基準」ですか?


13

先週末、R(初版)でFarawayの教科書の線形モデルを読んでいました。Farawayには「統計戦略とモデルの不確実性」という章がありました。彼は非常に複雑なモデルを使用して人為的にいくつかのデータを生成したと述べ(158ページ)、学生にデータをモデル化し、学生の予測結果読み取り結果を比較するように依頼しました。残念ながら、ほとんどの学生はテストデータを過剰に適合させ、予測値を完全に外れました。この現象を説明するために、彼は私に非常に印象的な何かを書きました:

「モデルが非常に異なっていた理由は、生徒がさまざまな方法を異なる順序で適用したためです。一部は変換前に変数選択を行い、他は逆になりました。ことを使用し、学生のいくつかと、明らかに間違って何も見つけることができなかった、彼らが行っていたものとします。一人の学生は、計算にミスを犯した彼または彼女は、予測値が、残りの部分では、明らかに間違って何もありませんでした。この割り当てのパフォーマンスが表示されませんでした試験におけるそれとの関係。

モデルの予測精度は、最高のモデル性能を選択するための「黄金の基準」であると教育を受けました。誤解しない限り、これはKaggleコンテストで使用される一般的な方法でもあります。しかし、ここでFarawayは、モデルの予測パフォーマンスには何の関係もないという、異なる性質のものを観察しました。関係する統計学者の能力を使って。つまり、予測力の観点から最適なモデルを構築できるかどうかは、実際の経験によって決定されるわけではありません。代わりに、それは巨大な「モデルの不確実性」(盲目的な運?)によって決定されます。私の質問は、これは実生活のデータ分析でも同様ですか?または、非常に基本的なものと混同されましたか?これが真実なら、実際のデータ分析への影響は計り知れないからです。データの背後にある「実際のモデル」を知らなくても、経験豊富な/経験のない統計学者によって行われた作業に本質的な違いはありません:利用可能なトレーニングデータ。


2
+1いい質問です。別の角度を提供するために、アナリストの1人が本当のモードを知っていると言います-彼女の予測も悪いかもしれません!そのため、実際のモデルを知っていても、これが表示されます。重要なのは、サイコメトリカでの1991年のHaggerty and Srivinasansによる観察であり、「より高い予測精度を備えたモデルは「より正確」であると結論付ける慣行は有効な推論ではない」。
モモ

1
私はまだ本を見ていませんが、「変数選択」と「変換」はすでに警告の鐘を鳴らしています。参照してください自動モデル選択のためのアルゴリズムを予測変数間の関係の性質や回帰で依存。また、統計学の学生の試験成績を統計学者の実際の能力と混同しません。
Scortchi -復活モニカ

2
ファラウェイによって与えられたこの情報は、統計の分野に関する大まかな一般原則の基礎として使用されるために、非常に逸話的なようです。このような再現不可能な例に基づいて、予測モデリングに関するモデルを構築したくありません。また、それらが、故意にまたは否かにかかわらず、チェリーピッキングされた可能性もあります。
rolando2

3
この逸話から導き出せる論理的に妥当な結論の1つは、Farawayの学生は誰も、(まだ)彼の予測テストでうまく機能するために必要なスキルを獲得していないということです。その結果と、経験豊富な統計学者がどのように機能するかについての推測とを結びつけることは困難です。
whuber

@whuber:そうは思いません。28人の生徒が少人数であることに同意しますが、この実際の観察にはいくつかの重大な意味があると思います。Farawayが実際のモデルを作成し、彼が複数の学生の作品を調べた場合、重大な間違いを見つけることができませんでしたが、予測は本来あるべき姿から外れています。そして、これは、関与する「モデルの不確実性」について何かを言います。少なくとも、元のアナリストが「経験」していても、違いを比較するには別のアナリストが行う作業が必要です。これは私にとって非常に憂慮すべきことだと思います。
ボンビックスモリ

回答:


1

これについて、私の学部の教授に尋ねました。彼は率直に言って、それについて全く驚いていないと言った。彼はこれを見るために次の方法を提案しました:Farawayが行ったことは一度だけの実験であり、結果が最終グレードと相関関係を持たないように見えることは驚くことではありません。しかし、Farawayが同じ学生グループで「実験」を100回繰り返した場合、彼は、信頼区間と同様に、統計をより良く学習した学生のパフォーマンスが良好であることを確信しています。したがって、彼の意見では経験は重要であるが、モデルの不確実性のために社会実験がそれを示すことができなかったのは一度だけである。


その言い訳は愉快だと思います。これが、統計が「データサイエンス」に置き換えられる(またはブランド変更される)理由であると思います。人々は、大学で教えられた統計は予測があまり得意ではなく、予測力のないモデルは役に立たないことに気付き始めています。
ヒラメ

1
@Flounderer:これは本当に言い訳ではないと思うし、あなたが書いたものはこのケースに本当にうまく接続されていないかもしれない。現実の世界では、ほとんどの場合、テストセットとトレーニングセットの両方がありますが、Farawayの場合とは異なり、トレーニングセットは1つしかありません。次に、Farawayのモデルを見ると、非常に非線形であるため、回帰法がうまく機能しません。したがって、すべての線形モデルは単なる推測です。実験の教訓は、「大学で教えられている統計は予測があまり得意ではない」というよりも、「すべてのモデルが間違っている」ということです。
ボンビックスモリ

@Flounderer:言い換えれば、私(またはフォーラムの他の誰か)が20年前にこの奇妙なトレーニングセットに直面しているFarawayの学生の立場にある場合、線形モデルだけを使用したほうが良いとは思えません。これは「大学での統計としての統計」に関連するものではないと思います。
ボンビックスモリ

1

学生のモデルはほとんどすべて適合していました。n個のデータポイントを使用すると、n-1次の完全な多項式を常に近似できます。このようなモデルは期限切れであるため、ランダムエラーは発生しません。学生たちは似たようなオーバーフィッティングのエラーを犯したようですが、おそらく機能が異なります。

オーバーフィッティングは、学生のみが行うべきエラーです。そしてこれは、経験と教育がモデリングに必要な資格であることを示唆しています。


2
「オーバーフィッティングは、学生のみが行うべきエラーです」というのは非常に高い基準です。モデリングは難しいです。たぶん「オーバーフィットはモデラーが経験と教育を通じて認識し回避することを学ぶものです」というようなものは真実に近いでしょうか?
マシュードゥルーリー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.