エラーが正規分布していると仮定するのはなぜですか?


17

エラーをモデル化するときに、なぜガウスの仮定を使用するのでしょうか。でスタンフォード大学のMLコース、教授ンは2つの方法で、基本的にそれを説明します。

  1. 数学的に便利です。(最小二乗法に関連しており、疑似逆行列で簡単に解決できます)
  2. 中心極限定理により、プロセスに影響を与える多くの潜在的な事実があり、これらの個々の誤差の合計は、平均がゼロの正規分布のように振る舞う傾向があると仮定できます。実際にはそうです。

私は実際に第二部に興味があります。私が知る限り、中央極限定理はiidサンプルに対して機能しますが、基になるサンプルがiidであることを保証することはできません。

誤差のガウス仮定に関する考えはありますか?


どんな設定について話しているのですか?分類、回帰、またはより一般的な何か?
tdc

一般的なケースについて質問しました。ほとんどのストーリーは、ガウス誤差の仮定から始まります。しかし、個人的には、私自身の関心は、行列の因数分解と線形モデルのソリューションです(つまり、回帰)。
ペトリチャー

回答:


9

基本的に質問の頭に釘を打ったと思いますが、とにかく何かを追加できるかどうかを確認します。私は少し回り道でこれに答えるつもりです...

ロバスト統計の分野では、ガウスの仮定が失敗した場合に何をすべきかという問題を調べます(外れ値があるという意味で)。

多くの場合、データエラーは少なくともほぼ正規分布している、または正規分布推定値を生成するために中心極限定理に頼ることができると想定されています。残念ながら、データに異常値がある場合、従来の方法ではパフォーマンスが非常に低いことがよくあります

これらはMLにも適用されています。たとえば、Mika el al。(2001)Kernel Fisher Algorithmへの数学プログラミングアプローチ、Huberのロバスト損失をKDFAで(他の損失関数とともに)使用する方法を説明しています。もちろん、これは分類の損失ですが、KFDAはRelevance Vector Machineと密接に関連しています(Mika論文のセクション4を参照)。

質問で暗示されているように、損失関数とベイジアン誤差モデルの間には密接な関係があります(議論についてはこちらを参照)。

しかし、「ファンキーな」損失関数の組み込みを開始するとすぐに、最適化が難しくなる傾向があります(これはベイジアンの世界でも起こります)。そのため、多くの場合、人々は最適化が容易な標準の損失関数に頼り、代わりに追加の前処理を行って、データがモデルに適合していることを確認します。

あなたが言及する他のポイントは、CLTはIIDであるサンプルにのみ適用されるということです。これは事実ですが、ほとんどのアルゴリズムの仮定(および付随する分析)は同じです。IID以外のデータを確認し始めると、事態はさらに複雑になります。一例では、典型的なアプローチは、依存性のみ特定のウィンドウに及ぶと仮定することである場合には時間的な依存性が、存在する場合であり、サンプルは、したがって、このウィンドウの約IID外部(例えば、この鮮やかしかしタフ紙見ると考えることができるクロマチックPACを-非IIDデータのベイズ境界:ランキングおよび定常β混合プロセスへの適用)。その後、通常の分析を適用できます。

そのため、はい、一部は利便性に帰着します。一部は、現実の世界ではほとんどのエラーが(おおよそ)ガウスに見えるからです。もちろん、新しい問題を検討するときは、前提が違反されないように常に注意する必要があります。


1
+1堅牢な統計と堅牢でない統計について特に言及していただき、ありがとうございます。中央値とアルファトリムされた平均値は通常、実際の平均値よりも優れているが、その背後にある理論は知りませんでした。
-petrichor

3
正規分布データに関連するもう1つの便利な項目は、0の相関が独立性を意味することです。
AdamO

3
IID-nessに関するコメントは正しくありません。結果が独立しているが同一に分布していない場合に適用される(いくつかの)非常に一般的な中央極限定理があります。たとえば、Lindeberg CLTを参照してください。独立性さえ必要としないCLT結果もあります。たとえば、交換可能な観測から発生する可能性があります。
ゲスト
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.