回答:
機能の生成 -これは、生の非構造化データを取得し、統計分析で使用する可能性のある機能(変数)を定義するプロセスです。たとえば、テキストマイニングの場合、数千のテキストメッセージ(SMS、電子メール、ソーシャルネットワークメッセージなど)の生ログから開始し、特定のサイズを使用して価値の低い単語(ストップワードなど)を削除して機能を生成できます単語のブロック(nグラム)または他のルールの適用。
特徴抽出 -特徴を生成した後、元の特徴の変換をテストし、モデルで使用する可能性のある元の特徴と派生特徴のこのプールのサブセットを選択する必要があります(特徴の抽出と選択)。データには、非線形パターンまたは結果との関係を持つ重要な情報が含まれている可能性があるため、派生値のテストは一般的な手順です。したがって、データ要素の重要性は、変換された状態でのみ明らかになります(たとえば、高次導関数)。あまりにも多くの特徴を使用すると、多重共線性または統計モデルが混乱する可能性がありますが、分析の目的に合わせて特徴の最小数を抽出すると、節約の原則に従います。
このように機能空間を強化することは、多くの場合、画像またはその他のデータオブジェクトの分類において必要なステップです。通常、生の機能空間は、パラダイムでしばしば「ノイズ」と呼ばれるものを含む圧倒的な量の非構造化された無関係なデータで満たされるためです「信号」と「ノイズ」(つまり、一部のデータには予測値があり、他のデータにはないということ)。特徴空間を拡張することにより、分析で予測値またはその他の値を持つ重要なデータ(つまり「シグナル」)をより適切に識別できると同時に、交絡情報(つまり「ノイズ」)を除去できます。