機械学習で赤池情報量基準が使用されないのはなぜですか？

「赤池情報量基準」に出会ったばかりで、モデル選択に関するこの膨大な文献に気づきました（BICのようなものも存在するようです）。

なぜ現代の機械学習方法は、これらのBICおよびAICモデル選択基準を活用しないのですか？

— エコー
ソース

誰も尤度を計算していないのですか？

— アクサカル

「現代の機械学習方法」とはどういう意味ですか？私が使用した限り、AICとBICは頻繁に使用されます。

— フェルディ

また、なぜ-1？全く愚かな質問がない覚えておいてください-それぞれの質問には、宇宙に光当てるしよう

— エコー

@echo：私はdownvoteしませんでしたが、私は、あなたが/ソース（機械学習の方法はこれらのBICとAICモデル選択基準のテイク利点を行うこと）のメイン主張をサポートすることができれば、あなたの疑問を向上させることだと思う

— user603

@Aksakalありがとう。全面的な主張に基づいて作成された質問がその主張を導き出すことができれば、より良いと思います。原則として。

— user603

AICとBICは、たとえば段階的回帰で使用されます。これらは実際には、より大きなクラスの「ヒューリスティック」の一部であり、これも使用されます。たとえば、ベイジアンモデルの選択では、DIC（偏差情報基準）がよく使用されます。

ただし、それらは基本的に「ヒューリスティック」です。AICとBICの両方がクロスバリデーションアプローチに漸近的に収束することを示すことができますが（AICはLeave-one-out CVに向かっており、BICは他のアプローチに向かっていると思いますが、わかりません）それぞれペナルティ不足とペナルティ超過。すなわち、AICを使用すると、モデルが必要以上に複雑になることがよくありますが、BICを使用すると、あまりにも単純すぎるモデルが得られることがよくあります。

どちらもCVに関連しているため、多くの場合、CVの方が適切な選択であり、これらの問題はありません。

最後に、BICとAICに必要なパラメーターの数の問題があります。実数値入力の一般的な関数近似（KNNなど）を使用すると、パラメーターを「隠す」ことができます。つまり、2つの実数と同じ情報を含む実数を構成できます（数字の交差など）。その場合、パラメーターの実際の数はいくつですか？一方、より複雑なモデルでは、パラメーターに制約がある場合があります。たとえば、ようなパラメーターのみを適合させることができます（たとえば、こちらを参照）。または、識別できない可能性があります。その場合、パラメーターの複数の値が実際に同じモデルを提供します。これらすべての場合において、単にパラメーターを数えるだけでは適切な推定値は得られません。 $\theta_1 > \theta_2$

現代の多くの機械学習アルゴリズムはこれらの特性（すなわち、普遍的な近似、不明確なパラメーターの数、識別不能性）を示すため、AICとBICは一見すると思われるよりもこれらのモデルにはあまり役に立ちません。

編集：

明確にすることができるいくつかのポイント：

間の数字をインターリーブすることでマッピングを考慮するのは間違っていたようです（こちらを参照）。ただし、これが全単射ではない理由の詳細を理解するのは少し難しいです。ただし、このアイデアが機能するために実際に全単射は必要ありません（単射で十分です）。 $\mathbb{R}\rightarrow\mathbb{R}^N$
Cantor（1877）による証明によれば、間に全単射がなければなりません。この全単射は明示的に定義することはできませんが、その存在は証明できます（ただし、これには選択の証明されていない公理が必要です）。この全単射は、1つのパラメーターを任意の数のパラメーターにアンパックするために、理論モデル（コンピューターで実際にこのモデルを実際に実装することはできない場合があります）でも使用できます。 $\mathbb{R}\rightarrow\mathbb{R}^N$
実際、間のマッピングが全単射である必要はありません。単射関数は、単一のパラメーターから複数のパラメーターをアンパックするのに十分です。このような推測は、他の関数のシーケンス（いわゆる空間充填曲線、たとえばPeano曲線）の制限として存在することが示されます。 $\mathbb{R}\rightarrow\mathbb{R}^N$ $\mathbb{R}\rightarrow\mathbb{R}^N$
Cantorによる証明は建設的ではなく（例を挙げずに全単射の存在を単に証明するだけでなく）、空間充填曲線（建設的オブジェクトの限界としてのみ存在し、それ自体は建設的ではないため） madeは理論上の証明にすぎません。理論的には、モデルにパラメーターを追加し続けるだけで、BICを（トレーニングセットで）目的の値より低くすることができます。ただし、実際のモデルの実装では、空間充填曲線を近似する必要があるため、近似誤差により、実際にそうすることができない場合があります（実際にこれをテストしていません）。
これにはすべて選択の公理が必要なので、この公理を受け入れないと証明は無効になります（ほとんどの数学者はそうしますが）。つまり、建設的な数学ではこれは不可能かもしれませんが、統計的に建設的な数学が果たす役割はわかりません。
識別可能性は、本質的に機能の複雑さに関連しています。識別可能なパラメーターモデルを取得し、余分なパラメーターを追加した場合（たとえば、どこでも使用されていない場合）、新しいモデルは識別できなくなります。本質的に、の複雑さを持つモデルを使用して、複雑さを持つ問題を解決します。同様に、他の形式の非識別可能性もあります。例えば、特定できないパラメーターの順列の場合を考えてみましょう。その場合、の複雑さを持つモデルを使用しますが、実際の問題は上の等価クラスのセットの複雑さのみを持ちます。 $N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ 。しかし、これは非公式の議論に過ぎず、この「複雑さ」の概念の正式な扱いについては知りません。

— LiKao
ソース

この投稿のチャイムに気をつけてくださいstats.stackexchange.com/questions/325129/…？私はしばらくの間それで運がなかった。

— スカンダーH.-モニカを復元

@LiKao交差する数字の場合のように、hiddingパラメータの「テクニック」に関するリファレンスを引用できますか。

— horaceT

@horaceT残念ながら、私はこの例を示す論文を知りません。MDLに関する論文には、「機能の複雑さ」という概念があります（lpl.psy.ohio-state.edu/documents/MNP.pdf eq 10を参照）。多くの場合、この例は制約されたパラメーター（researchgate.net/publication/…など）で作成されます。これについて議論する際に例を振り返り、複雑な単一のパラメーターが複数の単純なパラメーターをキャプチャできることを示しています。

— LiKao

@horaceTまた、より数学的な処理が必要な場合は、充填曲線が存在することが証明されていることを考慮してください。つまり、全単射ます。この全単射は全単射定義に簡単に使用できます。したがって、パラメーターを持つモデルの場合、を使用して最初に単一のパラメーターから次元のベクトルを取得し、このベクトルをパラメーターとしてパラメーターモデルに提供できます。これにより、機能的に同等のパラメーターモデルが得られます。ただし、そのモデルの適合は、少なくとも非常に複雑になります。

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$

— LiKao

@LiKaoこれはとても魅力的です。Plsの参照は、「ファイリング曲線」の証拠を述べた。制約されたパラメーターには「少ない」自由度があることがわかりました。単純に、f（x、y）= 0の場合、yは単なるxの関数です。y（y）の場所にg（x）を置くだけです。制約付き最適化で同様のことを行うことはできません。

— horaceT