「最適」および相互検証という用語で使用される「最適」の定義は何ですか?


16

非線形関数を一連の点に当てはめると(各横座標に1つの縦座標しかないと仮定して)、結果は次のいずれかになります。

  1. 小さな残差を持つ非常に複雑な関数
  2. 大きな残差を持つ非常に単純な関数

通常、クロス検証は、これらの2つの両極端間の「最良の」妥協点を見つけるために使用されます。しかし、「最高」とはどういう意味ですか?それは「最も可能性が高い」ですか?最も可能性の高いソリューションが何であるかをどのように証明し始めますか?

私の内なる声は、CVが何らかの最小エネルギーソリューションを見つけていることを教えてくれます。これにより、統計と物理学の両方で発生するエントロピーについて考えることができます。

複雑さとエラーの関数の合計を最小化することにより、「最適な」適合が生成されるように思えます。

minimising m where m = c(Complexity) + e(Error)

これは理にかなっていますか?関数cとeはどうなりますか?

数学はあまり理解できないので、非数学言語を使って説明してください。


1
最良は、将来のエラーが最小のモデルであり、相互検証によりその推定値が得られます。c(Complexity)+ e(Error)式の理由は、トレーニングデータのエラーを将来のエラーの推定値として使用できるためですが、それは過度に楽観的であるため、この推定値を不偏にする項を追加します。モデルの複雑さ
ヤロスラフ・ブラトフ

一方、ルンゲ現象(物理学のインスピレーション)に照らして推論すると、将来のエラーはComplexity / Train_Errorに関するものであるという結論に至ります。

マット・クラウスは同様の質問に対して優れた答えをここに与えましstats.stackexchange.com/a/21925/14640 彼の答えからの言い換え:目標はモデルの複雑さとモデルの説明力のバランスをとることで、so約の概念はより良いですモデルの適切性の尺度は、エラーに最も適合する概念です。これは、非常に複雑なモデルでは、新しい結果をより正確に予測または説明することなく、データをオーバーフィットできるためです。
アサドエブラヒム

回答:


6

これは素晴らしい質問だと思います。私はそれが正しいことを確認するためにそれをパラフェーズするつもりです:

複雑性ペナルティ関数とエラーペナルティ関数を選択する方法はたくさんあるように思われます。どの選択肢が「最良」です。最良の意味は何でしょうか?ce

答えは(もしあれば)相互検証を超えた方法になると思います。この質問(および一般的なトピック)がOccamのRazorと科学の基本であるpar約の一般概念とうまく結びついているのが好きです。私は決してこの分野の専門家ではありませんが、この質問は非常に興味深いものです。これらの種類の質問で私が知っている最高のテキストは、マーカス・ハッターによるUniversal Artificial Intelligenceです(質問については質問しないでください。ほとんど読んでいません)。ハッターと数年前の講演に行って、とても感銘を受けました。

どこかに最小エントロピー引数があると考えるのは正しいです(何らかの方法で複雑性ペナルティ関数に使用されます)。ハッターは、エントロピーの代わりにコルモゴロフの複雑さの使用を提唱しています。また、Hutterの「最良」の定義(覚えている限り)は、(非公式に)将来最もよく予測する(つまり、将来観測されるデータを最もよく予測する)モデルです。彼がこの概念をどのように公式化したかは思い出せません。c


あなたは質問を理解しています。リンクをたどります。
バート

これらのリンクが「実用的」な場所に行く可能性は低いことを知っておく必要があります。クロス検証(または他の種類のモデル選択)を使用して何かを構築しようとしている場合、実際には常に発見的で少しアドホックなものになります(これは満足できないことに同意しますが)。
ロビーマッキリアム

今、私たちはどこかに到達しています。en.wikipedia.org/wiki/Minimum_message_lengthは、私が考えていたもののようです。ありがとう!
バート

心配ない。これは単なる反映であり、実用的ではありません。
バート

9

より良い答えが他の誰かによって提供されるまで、私は簡単な直感的な答えを(かなり抽象的なレベルで)提供します。

最初に、複雑な関数/モデルは、グローバルに存在しないデータセットのいくつかの局所的特徴(ノイズを考える)を活用するため、より良い適合(すなわち、より低い残差)を達成することに注意してください。

次に、相互検証を実行するときに、データを2つのセット(トレーニングセットと検証セット)に分割します。

したがって、クロス検証を実行すると、複雑なモデルはトレーニングセットのローカルな特徴を活用するため、複雑なモデルはあまりうまく予測できません。ただし、検証セットのローカル機能と比較すると、トレーニングセットのローカル機能が大きく異なり、予測パフォーマンスが低下する可能性があります。したがって、トレーニングと検証データセットのグローバルな特徴をキャプチャするモデルを選択する傾向があります。

要約すると、クロス検証は、データセットのグローバルパターンをキャプチャするモデルを選択し、データセットのローカル機能を活用するモデルを回避することにより、過剰適合から保護します。


@Srikant私はこれをすべて知っています。CVは「最良」を見つけるための手段です。「ベスト」の定義は何ですか?
バート

@bart 'best model' =データのローカルな特徴を回避しながら、グローバルパターンを「ベスト」にキャプチャするモデル。これは、数学以外の説明でできることです。おそらく、他の誰かがもう少し詳しく説明したり、より具体的にしたりすることができます。

@bart:「最良」とは、トレーニングデータに最適な関数を意味し、検証/未確認テストセットのデータに「一般化」します。これはスリカントの答えから明らかだと思います。適切な一般化動作を正式に定義する方法は多数あります。非形式的な意味では、それは「滑らか」で、あまり波打ちのない関数を見つけることと考えることができます。トレーニングデータのみに適合させようとすると、波打つような機能につながる可能性がありますが、通常、スムーズ性は通常、トレーニングデータと検証/テストデータの両方で機能が適切に機能することを保証します。
ebony1

@ebony:ポイントがありません。
願わくばそれを

5

一般的な機械学習ビューでは、答えは非常に簡単です。新しいデータを予測するときに最高の精度を持つモデルを構築したい(トレーニング中に見えない)。これを直接テストすることはできないので(将来のデータはありません)、このようなテストのモンテカルロシミュレーションを行います。これは基本的に相互検証の下にある考え方です。

精度についてはいくつかの問題がある場合があります(たとえば、ビジネスクライアントは、ユニットあたり5ユーロのオーバーシュートコストとユニットあたり0.01ユーロのアンダーシュートを述べることができるため、精度は低くてもアンダーシュートモデルを構築する方がよい)分類における真の回答のかなり直感的なパーセントであり、回帰で広く使用されている説明された分散です。


3

多くの人が優れた答えを持っています。これが私の0.02ドルです。

統計的に言えば、「最適なモデル」または「モデルの選択」を調べるには2つの方法があります。

1可能な限り単純であるが、単純ではない説明(Attrib。Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2予測は、技術開発と同様の関心事です。

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

広範囲にわたる(誤)概念:

モデルの選択は、最適なモデルを選択することと同等です

説明のために、いくつかの(おおよそ)同等に優れた説明モデルが存在する可能性があることに注意する必要があります。シンプルさは、モデルで具体化された概念と、心理学者が一般化と呼ぶもの、モデルが研究されたシナリオとは非常に異なるシナリオで「働く」能力の両方を伝えるのに役立ちます。そのため、いくつかのモデルにはプレミアムがあります。

予測について:(Dr Ripleyの)類推は、専門家の意見を選択することです:専門家の大きなパネルにアクセスできる場合、彼らの意見をどのように使いますか?

クロス検証は、予測の側面を処理します。CVの詳細については、BDリプリー博士によるこのプレゼンテーションを参照してください。ブライアンD.リプリー博士のモデル選択に関するプレゼンテーション

引用:この回答の内容はすべて上記のプレゼンテーションのものです。私はこのプレゼンテーションの大ファンであり、気に入っています。他の意見は異なる場合があります。プレゼンテーションのタイトルは「モデルの大規模なクラスの選択」であり、2004年3月30日、インペリアルカレッジのジョンネルダー生誕80周年のシンポジウムでブライアンD.リプリー博士によって授与されました。


3

ここでの素晴らしい議論ですが、これまでの答えとは異なる方法で交差検証を考えています(mbqと私は同じページにいます)。だから、私は2セントを入れて、水を濁らせる危険を冒します...

交差検定は、データを近似および予測するモデルの能力において、サンプリングエラーによる変動性とバイアスを評価するための統計的手法です。したがって、「最良」は、最小化の一般化誤差を提供するモデルであり、ばらつきとバイアスの単位になります。BayesianやBootstrap Model Averagingなどの手法を使用して、相互検証作業の結果に基づいてアルゴリズムの方法でモデルを更新できます。

このFAQは、私の意見を伝えるもののより多くのコンテキストのための良い情報を提供します。


1

エラー関数は、トレーニングデータのモデル(関数)のエラーです。複雑さは、学習しようとしている関数の標準(たとえば、l2の2乗標準)です。複雑さの用語を最小限に抑えることは、基本的に滑らかな関数を支持します。これは、トレーニングデータだけでなくテストデータでもうまく機能します。関数を一連の係数で表す場合(たとえば、線形回帰を行う場合)、2乗ノルムで複雑度にペナルティを課すと、関数の係数値が小さくなります(他のノルムにペナルティを課すと、複雑度制御の概念が異なります)。


1

pq1λ>0

1Argβ|λバツy||ymバツβ||p+λ||β||q

に等しい

2Argβ|λバツy||ymバツβ||p

st ||β||qλ

||β||qλq=12β^β^

λλ=バツy12λβ^|λ

e=||ymバツβ||pp=1p=2m


1
λ

@ロビー:>ありがとう。パラメーターとハイパーパラメーターの区別を明確にするために、テキストを少し追加しました。
user603

@kwak:これが何を意味するのかわからない、と言ってすみません。シンボルp、q、ラムダ、x、y、mおよびベータは何を意味しますか?
バート

@bart:>私の答えは基本的にスリカントの答えと同じです。彼が直感的な説明を提供する場合、あなたと同じ質問をするかもしれないが、非形式的な言語よりも数学に精通している将来の訪問者のために、より厳密な説明を追加したかった。あなたが言及するすべての記号は、私の答えで定義されています(ただし、これも正式に行われます)。
user603

@kwak:たとえば、pはどこで定義されていますか?
バート
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.