これらの講義ノート(5ページ)で説明されているように、相互情報のアイデアを機能選択に適用しようとしています。
私のプラットフォームはMatlabです。経験的データから相互情報量を計算するときに私が見つける1つの問題は、数値が常に上向きにバイアスされることです。Matlab CentralでMIを計算するために約3〜4種類のファイルを見つけましたが、独立したランダム変数を入力すると、それらはすべて大きな数値(> 0.4など)を示します。
私は専門家ではありませんが、MIを計算するために単に結合密度と限界密度を使用する場合、MIは定義上正であるため、プロセスにバイアスが導入されるという問題があるようです。相互情報を正確に推定する方法について実用的なアドバイスはありますか?
関連する質問は、実際には、実際にMIを使用して機能を選択する方法ですか。MIは理論上無制限なので、しきい値をどのように考案するかは私には明らかではありません。または、人々は単にMIによって機能をランク付けし、上位kの機能を採用しますか?