カイ二乗特徴選択はどのように機能しますか?


15

各フィーチャクラスペアについて、カイ二乗統計の値が計算され、しきい値と比較されることを知っています。

私は少し混乱しています。特徴とクラスが場合、分割表をどのように作成しますか?どの機能を保持し、どの機能を削除するかをどのように決定しますか?mk

どんな説明でも大歓迎です。前もって感謝します


1
これについての考え/ポインタはありますか?
user721975

回答:


5

カイ二乗検定は、2つの変数の依存関係を決定する独立性の統計的検定です。決定係数R²と類似点を共有しています。ただし、カイ2乗検定はカテゴリデータまたはノミナルデータにのみ適用でき、R²は数値データにのみ適用できます。

カイ二乗の定義から、特徴選択におけるカイ二乗手法の適用を簡単に推測できます。ターゲット変数(クラスラベルなど)と、データの各サンプルを説明するその他の機能(機能変数)があるとします。次に、すべての特徴変数とターゲット変数間のカイ二乗統計を計算し、変数とターゲット間の関係の存在を観察します。ターゲット変数が機能変数から独立している場合、その機能変数を破棄できます。それらが依存している場合、機能変数は非常に重要です。

数学的な詳細はここで説明されています:http : //nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

連続変数の場合、変数を「ビニング」した後にカイ二乗を適用できます。

FSelectorから恥知らずにコピーされたRの例

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

機能選択にはあまり関係ありませんが、以下のビデオでchisquareについて詳しく説明していますhttps://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.