ここで私は、教師あり学習での結果選択に関する特徴選択にカイ二乗検定を使用するために他の人が一般的に何をするかについて尋ねています。私が正しく理解している場合、彼らは各機能と結果の間の独立性をテストし、各機能のテスト間のp値を比較しますか?
ではhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test、
ピアソンのカイ2乗検定は、カテゴリデータのセットに適用される統計的検定であり、セット間に観測された差が偶然に生じた可能性を評価します。
...
独立性のテストでは、分割表で表された2つの変数のペアの観測値が互いに独立しているかどうかを評価します(たとえば、国籍が異なる応答をポーリングして、国籍が応答に関連しているかどうかを確認します)。
では、独立性がテストによってテストされる2つの変数は、カテゴリカルまたは離散(カテゴリカル以外の順序付けを許可)でなければならないが、連続ではないのでしょうか。
http://scikit-learn.org/stable/modules/feature_selection.html、彼ら
アイリスデータセットに対してテストを実行して、2つの最良の特徴のみを取得します。
虹彩データセットは、すべての機能が大切数値と連続しており、そして結果は、クラスラベル(カテゴリ)です。カイ二乗独立性検定は、連続特徴にどのように適用されますか?
データセットにカイ二乗独立検定を適用するには、最初にビニング(つまり、最初に特徴の連続ドメインをビンに離散化し、次に特徴をビン内の特徴の値の出現で置き換える)により、連続特徴を離散特徴に変換しますか? )?
いくつかのビンでの発生は多項式の特徴(各ビンで発生するかしないかのどちらか)を形成するため、カイ2乗独立検定をそれらに適用できます。
ところで、私はカイ二乗独立検定をあらゆる種類の機能と結果に適用できますか?
結果の部分では、分類だけでなく、カイ二乗独立検定、連続結果をビニングすることにより、回帰の機能も選択できます。
scikit学習サイトにも書いてあります
各非負の特徴とクラスの間のカイ2乗統計を計算します。
このスコアが含まれている必要がありますXからテストカイ二乗統計値の最高値は、とn_features機能を選択するために使用することができる唯一の非負のようにブール値や周波数などの機能 (文書分類では例えば、用語カウント)、に対するクラス。
テストで非負の機能が必要なのはなぜですか?
特徴に兆候はないが、カテゴリー的または離散的である場合、テストをそれらに適用できますか?(私のパート1を参照)
特徴が否定的である場合、それらのドメインを常にビニングし、それらをその出現に置き換えることができます(虹彩データセットにテストを適用するために私が推測するのと同じように、パート2を参照)。
注:Scikit Learnは一般的な原則に従っていると思います。それが私がここで求めていることです。そうでない場合は、それでも大丈夫です。