データの関連機能を選択するにはどうすればよいですか?


11

最近、特定のリソースに対する支出のコスト分析を行う問題に取り組んでいました。私は通常、分析からいくつかの手動の決定を行い、それに応じて計画します。

私は、さまざまな時間枠とタイプ(他のさまざまな詳細な用途)でのリソースの使用を定義する、Excel形式の数百の列を持つビッグデータセットを持っています。また、過去4年間のデータと、それに応じて発生した実際のリソース使用量とコストに関する情報も持っています。

NNをトレーニングして事前にコストを予測し、手動でコスト分析を行う前に計画を立てることを望んでいました。

しかし、私が直面している最大の問題は、そのような分析のための機能を特定する必要があることです。データセットから特徴を特定する方法があることを望んでいました。

PS-私はPCAと他のいくつかの機能セット削減手法について考えがあります。私が見ているのは、そもそもそれらを識別する方法です。

回答:


1

すべてのデータがテーブルにあるので、比較的簡単なことは、各列を個別に検討し、出力変数(発生したコスト)がそれに相関しているかどうかを確認することです。

列に出力変数との相関がない(または相関が非常に低い)場合、それは重要ではないと見なします。カットを行うものは、さらに検討されます。

これは、デシジョンツリーアルゴリズムの動作(ID3など)とそれほど大きな違いはありません。


0

特徴選択には厳密な規則はありません。データセットを手動で調べて、特徴エンジニアリングのさまざまな手法を試す必要があります。そして、これにニューラルネットワークを適用する必要があるというルールはありません。ニューラルネットワークはトレーニングに時間がかかります。代わりに、データが表構造であるので、決定木ベースのメソッド(ランダムフォレスト)を試すことができます。


入力について感謝します。1。NNは仮説をテストするための最良の方法ではないことに同意しますが、NNを使用すると、機能間でより広範な関係を実現して、より良い結果を得ることができると思います(ほとんどの場合)。2.私が直面していた問題は、実際に問題のパターンを定義する機能を選択することであり、機能の重みを定義する方法もありました。
カランチョプラ

0

それは素晴らしい質問であり、おそらくMLで最も難しいタスクの1つです。

いくつかのオプションがあります:

  1. 重み付けアルゴリズム(カイ二乗など)を使用して、出力に最も貢献している機能を理解できます。
  2. 他のMLアルゴリズムを使用して、機能が予測に寄与しているかどうかを分類できます
  3. 本質的に特徴の重み付けを提供する他のMLアルゴリズム(NN以外)を使用できます(ランダムフォレストなど)。

それが役に立てば幸い


0

リソースエンゲージメントとコストの相関関係だけでなく、リソースエンゲージメントのコストに対するリターンも検討するのが賢明です。典型的な課題は、これらのリターンがほとんど常に累積的または遅延していることです。蓄積のケースは、リソースがプロセスの継続的な調整または改善であり、それがないと収益の発生が遅くなる場合です。遅延の例としては、研究リソースが一定期間収益に影響を与えずにコストを負担するが、研究が生産的な結果をもたらした場合に始まる収益創出が、配信された結果の総コストを超える実質的な要因である場合があります。

経費データ自体がネットワークの学習に不適合をもたらす可能性がある理由は、たとえばマーケティング費用を削減するようにトレーニングされたネットワークではゼロになるためです。これは通常、ビジネスが折りたたまれるまで、販売リードの減少傾向を引き起こします。トレーニング情報にリターンを含めないと、有用な学習が行われない可能性があります。

基本的なMLP(多層パーセプトロン)は、データの時間特性、累積および遅延の側面を学習しません。ステートフルネットワークが必要になります。この執筆時点でこの種の学習で最も一貫して成功しているネットワークタイプは、LSTM(長期短期記憶)ネットワークタイプまたはその派生バリアントの1つです。収益とバランスのデータを費用データと組み合わせて使用​​し、ネットワークをトレーニングして、提案されたリソースエンゲージメントの特定のシーケンス(完全に詳細な予算計画)のビジネス結果を予測する必要があります。

損失関数は、ソート期間と中長期的な財務目標を適切にバランスさせる必要があります。負の利用可能な現金は、評判に対する基本的なリスクと信用のコストのそのような回避が学習されるように、損失関数の顕著な増加を生み出すはずです。

データのどの列が投資収益率と強い相関を持っているかを事前に判断することは困難です。次のいずれかの基準に一致する列をすぐに除外できます。

  • 常に空
  • 他の定数、すべての行で同じ値を持つ定数
  • 常に他の列から派生できるもの

他の方法でデータを削減できます

  • 簡単な方法で傾向を特徴付けることによってデータを完全に説明する
  • インデックスを使用して、各文字列に番号を割り当てることにより、100%の精度で長い文字列を指定する
  • 圧縮
  • そうでなければデータの冗長性を減らす

RBM(制限付きボルツマンマシン)はデータから機能を抽出でき、PCAは情報量の少ない列を照らすことができますが、これらのデバイスを基本形式で使用しても、収益との相関に関する列の重要性は識別されません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.