最適化:統計のすべての悪の根源?


14

以前に次の表現を聞いたことがあります。

「最適化は統計上のすべての悪の根源です」。

たとえば、このスレッドの一番の答えはモデルの選択中に過度に最適化する危険性について言及しています。

私の最初の質問は次のとおりです。この引用は特定の人に起因するものですか?(例えば、統計文献など)

私が理解していることから、声明は過剰適合のリスクに言及しています。従来の知恵では、適切な相互検証はすでにこの問題と戦っていると言われていましたが、この問題にはそれ以上のものがあるようです。

統計学者とMLプラクティショナーは、厳密な相互検証プロトコル(例:100個のネストされた10倍CV)を順守している場合でも、モデルの過剰最適化に注意する必要がありますか?もしそうなら、「最高の」モデルの検索をいつ停止するかをどのようにして知るのでしょうか?


ただし、2番目の質問は間違いなく成り立っています。
ラッセルピアス

@Glen_bそのスレッドに参照を残しました。しかし、明確にするために、Dikranはすでに別のスレッドで回答に対するフォローアップの質問を開くことを提案しており、この質問はコメントで対処する必要があるとは思いません。
アメリオバスケスレイナ

3
@ RussellS.Pierce現在の質問を含む編集は、コメントの前に作成されたものの、それを読み込んで元の質問と可能な回答の調査を開始したときに存在しませんでした。修辞的な質問として 現在の質問は問題ありません。
グレン_b-モニカを復元

2
交差検証の問題については、stats.stackexchange.com / questions / 29354 / …の別の質問で説明します。交差検証は過剰適合を回避するのに役立ちますが、問題を完全には解決しません。いつ停止するかを知ることは明らかに難しい問題になる可能性があり、一般的な解決策があるとは思わない。
ディクランマースピアル

1
「適切な相互検証はすでにこの問題と戦っていますが、この問題にはそれ以上のものがあるようです。」はい:問題は依然としてクロス検証の推定値の分散です(複数のテストの問題と組み合わせて)。時間を見つけたら、関連する質問の答えを書きます。
cbeleitesは、モニカをサポートします

回答:


14

この引用は、ドナルド・クヌースの引用の言い換えであり、彼自身がホアールに帰したものです。上記のページからの3つの抜粋:

時期尚早な最適化は、プログラミングにおけるすべての悪(または少なくともその大部分)の根源です。

早すぎる最適化はすべての悪の根源です。

クヌースはこれを15年後に「ホアのディクタム」と呼んでいます...

統計の言い換えに同意することはわかりません*。統計には、最適化に関係しない「悪」がたくさんあります。

統計学者とML開業医は、厳密な相互検証プロトコル(例:100個のネストされた10倍CV)を遵守している場合でも、常にモデルの最適化に注意する必要がありますか?もしそうなら、「最高の」モデルの検索をいつ停止するかをどのようにして知るのでしょうか?

重要なことは、どの手順を行うかという特性を完全に理解すること(または実行可能な限り完全に理解すること)であると思います。

* I won't presume to comment on Knuth's use of it, since there's little I could 彼は私と同じように10回も理解することを正しく主張できなかったと言います。


2
おかげで、これは役に立ちます。プログラミングにおける早期の最適化と過剰適合の間には、いくつかの興味深い関係があると思います。私たちのコミュニティに同様の引用があるかどうか、そして統計でこれと戦う厳密な方法があるかどうか疑問に思います。
アメリオバスケスレイナ

5
私のフレーズの使用はクヌースに触発されましたが、理由は異なりますが、ベイジアンの観点からは、ほとんどすべての最適化は悪いことであり、周辺化の方が優れています。
ディクランマースピアル

3

最適化が(データ駆動型)モデル選択を指すと仮定して、(統計で)引用符を解析できるいくつかの方法:

  • 予測に関心がある場合は、単一のモデルを選択するのではなく、モデルの平均化を行う方が良い場合があります。
  • モデルの適合に使用される同じデータセットでモデルを選択すると、モデルをアプリオリに選択したと仮定する通常の推論ツール/手順に大混乱をもたらします。(クロスバリデーションによりモデルサイズを選択して段階的に回帰するとします。頻度分析では、選択したモデルの通常のp値またはCIは不正確になります。モデルを含むベイジアン分析には対応する問題があると思います選択。)
  • データセットが考慮しているモデルのファミリーと比較して十分に大きい場合、過剰適合は問題ではなく、モデルの選択は不要です。(変数が少なく、観測数が非常に多いデータセットを使用して線形回帰を当てはめるとしましょう。いずれにせよ、偽の変数は0に近い係数を取得するはずなので、おそらく小さなモデルを選択する必要はありません。)
  • データセットが十分に小さい場合、問題に「真の」または「最良の」モデルに適合する十分なデータがない可能性があります。その場合、モデル選択をうまく行うことはどういう意味ですか?(線形回帰へ戻る?万一あなたは、あなたがすべて適切にそれらを測定するための十分なデータを持っていない場合でも、右の変数を持つ「真の」モデルを選択するために目指すべきは、あなたはちょうどあなたがいる最大のモデル選んでください十分なデータを持っているが?)
  • 最後に、モデルの選択が可能であり、実行する必要があることが明らかな場合でも、交差検証は万能薬ではありません。多くのバリエーションがあり、その特性に影響を与える独自の調整パラメーター(フォールド数、またはトレイン:テスト比)もあります。盲目的に信用しないでください。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.