リソースエンゲージメントとコストの相関関係だけでなく、リソースエンゲージメントのコストに対するリターンも検討するのが賢明です。典型的な課題は、これらのリターンがほとんど常に累積的または遅延していることです。蓄積のケースは、リソースがプロセスの継続的な調整または改善であり、それがないと収益の発生が遅くなる場合です。遅延の例としては、研究リソースが一定期間収益に影響を与えずにコストを負担するが、研究が生産的な結果をもたらした場合に始まる収益創出が、配信された結果の総コストを超える実質的な要因である場合があります。
経費データ自体がネットワークの学習に不適合をもたらす可能性がある理由は、たとえばマーケティング費用を削減するようにトレーニングされたネットワークではゼロになるためです。これは通常、ビジネスが折りたたまれるまで、販売リードの減少傾向を引き起こします。トレーニング情報にリターンを含めないと、有用な学習が行われない可能性があります。
基本的なMLP(多層パーセプトロン)は、データの時間特性、累積および遅延の側面を学習しません。ステートフルネットワークが必要になります。この執筆時点でこの種の学習で最も一貫して成功しているネットワークタイプは、LSTM(長期短期記憶)ネットワークタイプまたはその派生バリアントの1つです。収益とバランスのデータを費用データと組み合わせて使用し、ネットワークをトレーニングして、提案されたリソースエンゲージメントの特定のシーケンス(完全に詳細な予算計画)のビジネス結果を予測する必要があります。
損失関数は、ソート期間と中長期的な財務目標を適切にバランスさせる必要があります。負の利用可能な現金は、評判に対する基本的なリスクと信用のコストのそのような回避が学習されるように、損失関数の顕著な増加を生み出すはずです。
データのどの列が投資収益率と強い相関を持っているかを事前に判断することは困難です。次のいずれかの基準に一致する列をすぐに除外できます。
- 常に空
- 他の定数、すべての行で同じ値を持つ定数
- 常に他の列から派生できるもの
他の方法でデータを削減できます
- 簡単な方法で傾向を特徴付けることによってデータを完全に説明する
- インデックスを使用して、各文字列に番号を割り当てることにより、100%の精度で長い文字列を指定する
- 圧縮
- そうでなければデータの冗長性を減らす
RBM(制限付きボルツマンマシン)はデータから機能を抽出でき、PCAは情報量の少ない列を照らすことができますが、これらのデバイスを基本形式で使用しても、収益との相関に関する列の重要性は識別されません。