分類の問題を解決するために使用する3つの機能があります。元々、これらの機能はブール値を生成したので、正と負の分類のセットがどれだけ重複しているかを調べることで、それらの冗長性を評価できました。代わりに、実際の値(スコア)を生成するように機能を拡張しました。それらの冗長性をもう一度分析したいと思いますが、その方法について完全に途方に暮れています。誰かが私にそれについてどうやって進むべきかについてのポインタやアイデアを提供できますか?
私はこの質問が非常に曖昧であることを知っています、それは私が統計をあまり強く理解していないからです。ですから、答えがわからない場合は、私の理解を深めるのに役立つ質問があるかもしれません。
編集:私は現在、主題についてウィキペディアを閲覧していますが、私が欲しいのは相関係数であると感じていますが、これが正しいアプローチであるかどうか、そして多くの利用可能な係数のうちどれが適切であるかはまだわかりません。
編集2:ブール値の場合、私は最初に各機能に対して、それが真実であるサンプルのセットを作成しました。次に、2つのフィーチャ間の相関は、これらのセットの和集合のサイズに対するこれらのセットの交差のサイズでした。この値が1の場合、常に同じであるため、完全に冗長になります。0の場合、同じになることはありません。