基本的に質問の頭に釘を打ったと思いますが、とにかく何かを追加できるかどうかを確認します。私は少し回り道でこれに答えるつもりです...
ロバスト統計の分野では、ガウスの仮定が失敗した場合に何をすべきかという問題を調べます(外れ値があるという意味で)。
多くの場合、データエラーは少なくともほぼ正規分布している、または正規分布推定値を生成するために中心極限定理に頼ることができると想定されています。残念ながら、データに異常値がある場合、従来の方法ではパフォーマンスが非常に低いことがよくあります
これらはMLにも適用されています。たとえば、Mika el al。(2001)Kernel Fisher Algorithmへの数学プログラミングアプローチ、Huberのロバスト損失をKDFAで(他の損失関数とともに)使用する方法を説明しています。もちろん、これは分類の損失ですが、KFDAはRelevance Vector Machineと密接に関連しています(Mika論文のセクション4を参照)。
質問で暗示されているように、損失関数とベイジアン誤差モデルの間には密接な関係があります(議論についてはこちらを参照)。
しかし、「ファンキーな」損失関数の組み込みを開始するとすぐに、最適化が難しくなる傾向があります(これはベイジアンの世界でも起こります)。そのため、多くの場合、人々は最適化が容易な標準の損失関数に頼り、代わりに追加の前処理を行って、データがモデルに適合していることを確認します。
あなたが言及する他のポイントは、CLTはIIDであるサンプルにのみ適用されるということです。これは事実ですが、ほとんどのアルゴリズムの仮定(および付随する分析)は同じです。IID以外のデータを確認し始めると、事態はさらに複雑になります。一例では、典型的なアプローチは、依存性のみ特定のウィンドウに及ぶと仮定することである場合には時間的な依存性が、存在する場合であり、サンプルは、したがって、このウィンドウの約IID外部(例えば、この鮮やかしかしタフ紙見ると考えることができるクロマチックPACを-非IIDデータのベイズ境界:ランキングおよび定常β混合プロセスへの適用)。その後、通常の分析を適用できます。
そのため、はい、一部は利便性に帰着します。一部は、現実の世界ではほとんどのエラーが(おおよそ)ガウスに見えるからです。もちろん、新しい問題を検討するときは、前提が違反されないように常に注意する必要があります。