左打ち切りデータで標準の機械学習ツールを使用する


11

私は、輸入業者が代理店の顧客ネットワークから製品の需要を予測できるようにすることを目的とした予測アプリケーションを開発しています。需要を満たすのに十分な在庫がある限り、売上高は需要のかなり良いプロキシです。ただし、在庫がゼロになると(顧客が回避できるようにするために検討している状況)、目標を達成できなかったことはあまりわかりません。十分な供給があった場合、顧客はいくつの売上を上げましたか?単純なターゲット変数としてセールスを使用する標準的な回帰ベースのMLアプローチは、時間、私の説明変数、および需要の間の関係の一貫性のない推定を生成します。

Tobitモデリングは、問題に取り組む最も明白な方法です:http : //en.wikipedia.org/wiki/Tobit_model。ランダムフォレスト、GBMS、SVM、およびニューラルネットワークのML適応についても疑問に思っています。これは、データの左きき打ち構造も考慮しています。

つまり、機械学習ツールを左打ち切りの回帰データに適用して、従属変数と独立変数間の関係の一貫した推定値を取得するにはどうすればよいですか?Rで利用可能なソリューションが最初に優先され、次にPythonが優先されます。

乾杯、

アーロン


3
scikit-learnについて回答を参照してください。
16年

Rでは、cran.r-project.org/web/packages/censReg/censReg.pdfを使用できます。Pythonでのscikit-learnについて@tobipの2番目
Adrian

回答:


1

つまり、機械学習ツールを左打ち切りの回帰データに適用して、従属変数と独立変数間の関係の一貫した推定値を取得するにはどうすればよいですか?

可能性を記述して符号をマイナスに反転できる場合は、多くの機械学習モデルで使用できる自己損失関数があります。勾配ブースティングでは、これは一般にモデルブースティングと呼ばれます。たとえば、ブースティングアルゴリズム:正則化、予測、モデルフィッティングを参照してください。

Tobitモデルの例として、「デフォルト予測のための勾配木ブーストTobitモデル」ペーパーを参照してください。このメソッドは、ホワイトペーパーで言及されているscikit-learnブランチで使用できる必要があります。

同じ考えは例えばの右打ち切りデータのために使用され、gbmそしてmboost右打ち切りデータのためのR内のパッケージ。

L2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.