機能の冗長性を定量化する方法は?


10

分類の問題を解決するために使用する3つの機能があります。元々、これらの機能はブール値を生成したので、正と負の分類のセットがどれだけ重複しているかを調べることで、それらの冗長性を評価できました。代わりに、実際の値(スコア)を生成するように機能を拡張しました。それらの冗長性をもう一度分析したいと思いますが、その方法について完全に途方に暮れています。誰かが私にそれについてどうやって進むべきかについてのポインタやアイデアを提供できますか?

私はこの質問が非常に曖昧であることを知っています、それは私が統計をあまり強く理解していないからです。ですから、答えがわからない場合は、私の理解を深めるのに役立つ質問があるかもしれません。

編集:私は現在、主題についてウィキペディアを閲覧していますが、私が欲しいのは相関係数であると感じていますが、これが正しいアプローチであるかどうか、そして多くの利用可能な係数のうちどれが適切であるかはまだわかりません。

編集2:ブール値の場合、私は最初に各機能に対して、それが真実であるサンプルのセットを作成しました。次に、2つのフィーチャ間の相関は、これらのセットの和集合のサイズに対するこれらのセットの交差のサイズでした。この値が1の場合、常に同じであるため、完全に冗長になります。0の場合、同じになることはありません。


ブール型の場合に冗長性をどのように定義するか、連続型の場合にどのような結果が期待できるかの例を提供すると役立つでしょう
mpiktas

@mpiktas:コメントに応じて質問を編集してください。
ビョルンポレックス

回答:


4

これは特徴選択の問題のように聞こえます。その場合は、特徴のすべてのサブセットと分類出力の間の相互情報量を計算したいと思います。最も高い相互情報量を持つサブセットは、結果として得られるレコードの分類に関するほとんどの「情報」を含む機能のセットになります。

3つの機能しかない場合、妥当な時間内にすべての可能なサブセットを計算できます。機能セットが大きくなると、これを概算する必要があります(通常、貪欲なアプローチを使用して、各ステップで最高のMIで機能を取得します) )。


2
(+1)相互情報について。補足:a)相互情報の特別なケースとして、Information Gainを提案します。b)自動機能選択は、冗長性だけでなく、クラスの差別に悪影響を与えるすべての機能も削除します。
steffen

ありがとう!これは非常に有望に聞こえます。詳しく調べます。
ビョルンPollex
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.