私の組織で行われる予測の助けとして、インタラクティブな予測ツール(Python)を構築しています。今日まで、予測プロセスは主に人間主導で行われており、予測者は自然なニューラルネットワークのデータを同化し、学習した腸の感覚を使用して予測を行います。長期的な予測の検証と予測モデリングの調査から、私はあなたが期待するかもしれないものを見つけました。異なる予測者は異なるバイアスを示し、一部の予測子の効果は誇張されているようであり、他の重要な予測子は無視されているようであり、概して予測パフォーマンスは比較的単純な経験的モデルと比較して平凡です。
予測は引き続き手動で行われますが、私は予測者の相対的な影響のより良い定量化を予測者に提供するための有用なツールを構築しようとしています。見過ごされがちな季節の影響などの重要な影響もあり、ユーザーに強調したいと思います。私は、いくつかの「経験豊富な」予測者(その多くは統計に関する正式な知識がほとんどない)からのモデリングプロセスについてある程度の反発と懐疑論を期待しているため、コミュニケーションは少なくとも同じくらい重要であり、予測精度の測定可能な改善を達成します。
私が開発しているモデルには強力な自動回帰コンポーネントがあり、イベントによって大幅に変更されることがあります。このイベントは、非イベント時に、ゼロに近い一部の予測子で測定値として表示されます。これは、予測者が使用するメンタルモデルと一致しています。重要な部分は、どの「イベント」測定が予測を特定の予測の自己回帰値から遠ざけるのに最も影響を与えるかを実証できることです。この方法でプロセスをイメージします。予測者はその最良の推測値を導き出し、モデルは別の値を提案し、予測者はその理由を尋ねます。モデルは、「ここを参照してください。この予測子のこの値は夏の予測値を増加させます。冬だった場合、それは別の方向に移動します。他にもこれらの測定値があることを知っています。
ここで、モデルが単純な線形回帰であると想像してください。値にモデルの係数を掛けて単純な棒グラフとして表示することにより、イベントベースの予測子の相対的な「効果」を表示することを想像できます。異なる予測子からのすべてのバーは、AR値からの合計偏差になり、これは、この例では、強い影響力を持つものを簡潔かつ明確に示しています。
問題は、予測されているプロセスが予測子に高度な非線形性を表示することです。少なくとも、ブラックボックス非線形機械学習アルゴリズム(ランダムフォレストとGBM)は、GLMの場合よりもはるかに成功しています。このデータセット。理想的には、ユーザーエクスペリエンスを変更せずに「内部」で機能するモデルをシームレスに変更できるようにしたいので、アルゴリズム固有のアプローチを使用せずにさまざまな測定の重要性を簡単な方法で示す一般的な方法が必要です。現在のアプローチでは、1つの予測子を除くすべての値をゼロに設定して効果を準線形化し、予測偏差を記録してからすべての予測子について繰り返し、上記の棒グラフに結果を表示します。強い非線形性が存在する場合、これはうまく機能しない可能性があります。