データサイエンティストのインタビューの質問:低線形回帰とあなたは何をしますか


10

価格弾力性モデルのが非常に低い(5〜10%)と仮定して面接担当者から尋ねられた仕事の面接質問に直面しました。この質問をどのように解決しますか?R2

回帰診断を行って何がうまくいかなかったか、または非線形メソッドを適用する必要があるかどうか以外に、私は何も考えられませんでした。どういうわけかインタビュアーは私の答えに満足していなかったと思います。このようなシナリオで、モデルを適合させ、が低いにもかかわらず、それを生産レベルの予測に使用するために何か他のことはありますか?R2

編集:後の段階で、インタビュー中に問題をモデル化するためのデータが提供され、時間差変数、競合他社の価格の影響、季節性ダミーを追加して、それが違いを生むかどうかを確認しました。は17.6%になり、ホールドアウトサンプルでのパフォーマンスは悪かった。個人的には、このようなモデルをライブ環境で予測に使用すると、誤った結果が得られ、クライアントが失われるため、非倫理的であると考えます(このようなモデルの推奨価格を会社の収益に使用することを想像してください)。誰もが知る必要があるあまりにも明白であるようなシナリオで行われる他のことはありますか?「銀の弾丸」と言いたくて気づかない何かR2

また、外生変数を追加すると、がさらに2%向上し、このシナリオで何ができるかを想像してみてください。モデリングプロジェクトを破棄する必要がありますか、それとも、ホールドアウトサンプルのパフォーマンスによって示される生産レベルの品質のモデルを開発する希望はまだありますか?R2

EDIT2私は投稿している。この中で質問をeconomics.stackexchange.comの経済学の観点からこの問題を理解するためのフォーラム


12
「価格弾力性モデルでが非常に低い(5〜10%の間)であると想定してください」は問題ではありません。「価格弾力性モデルでが非常に低い(5〜10%の間)であると想定する」に対する私の返答は「大丈夫、完了」です。問題ないと思いますので、もう何もする必要はありません。彼らが本当に近づいていないのであれば、私は彼らが解決すべき問題と見なした点のどの側面を尋ねなければならないでしょう。彼らが不在の場合、ここで何が問題だと思いますか?R2R2
Glen_b-2017

1
自習用にタグを付けました@Glen_b詳細を追加する必要がある場合はお知らせください。ありがとう!
愛好家

2
ありがとう、それは良いことです。しかし、より詳細には、解決する必要があった実際の質問が含まれます。「仮定X」は何も解決するように求めていない状況を示しています。
Glen_b-2017

1
でクロスポストeconomics.stackexchange.com/q/16617。質問に最適なサイトを決定してください。別のサイトに合わせてバリアントを調整する価値があると思われる場合は、引き続きリンクしてください。
Scortchi-モニカを回復

1
@Scortchi、私は両方のフォーラムで追加の編集としてリンクを追加しました。ありがとう!
熱狂的なファン

回答:


11

この観点から問題を見るとどうなるでしょうか。価格弾力性とは、需要と製品の価格との関係です。

この状況でのr二乗が低い場合、その特定の製品の価格と需要の関係が強いものではないことを意味する可能性があります。

価格設定の観点からは、需要に大きな影響を与えることなく任意に価格設定できる製品を見つけたか、価格差にもかかわらず、需要が非常に不規則であることを意味する場合があります。

ヴェブレンの商品を見ると、弾力性が逆の例です。価格が上がると、需要が増えます。

一方、r-squareが低い場合は、需要に関して価格が比較的重要ではない製品のカテゴリを単に意味している可能性があります。私の頭の中で、抗がん剤はこの特性を維持できるものかもしれません。麻薬の重要性がそれが命じる価格を上回り、需要に変化が見られない場合。

そして結論として、面接官の意図は、より高いr二乗でより良いモデルを構築する方法を見つけるのではなく、低いr二乗の意味が何であるかを知っているかどうかを判断することだったと思います。


結論として+1。また、この質問の目的は、完全に理解せずに盲目的にメトリックを追求するかどうかを確認しようとすることであると考えています。
Haitao Du

5

インタビュアーが何をしていたのかはわかりませんが、不十分なプリフォームモデルに直面したとき、これらは私が検討するものであり、インタビュアーとして聞いてみたい答えです(今は数年間インタビューしています)。

  1. より多くのデータを取得する:これは必ずしも役立つとは限りませんが、このソリューションの効果を評価するのに役立ついくつかの事柄があります。

    • 異なるサンプルサイズでモデルを実行します。より多くのデータを使用して結果が向上する場合、より多くのデータを取得するとモデルのパフォーマンスが向上し続けると合理的に想定できます。
    • 特徴とサンプルの比率-特徴を選択した後、各特徴値ごとに十分なサンプルがあるかどうかを理解してください。この問題について回答された質問を参照してください。
    • 欠落している目標値-弾力性は、異なる価格範囲間で同様に動作しない可能性があります。サンプルデータが特定の範囲に偏っている状況では、一般化できない可能性が十分にあります(たとえば、サンプルの90%は0〜10の価格で、残りの10%は1000-10000)。より多くのデータを取得する以外にこの問題に取り組む方法があります(モデルトレーニングを分割し、回帰を使用しないでください)。
  2. より優れた機能エンジニアリング:十分なデータがあり、ディープラーニングについて知っている場合は、おそらくこれは無関係です。上記の基準に合わない場合は、この基準に集中してください。ユーザー行動モデルでは、人間の直感が機械学習モデルよりもよく理解されている多くの関係があります。
    さらにいくつかの機能を設計し、モデルのパフォーマンスを大幅に改善した場合と同じです。この手順は通常、論理ベースのコード(Elses /数式の場合)を含むため、エラーが発生しやすくなります。

  3. より優れたモデルの選択:ご提案のとおり、非線形モデルの方が適しています。データは均一ですか?クロス機能が価格弾力性をよりよく説明すると信じる理由がありますか?(季節*競合他社の価格)。

  4. ハイパーパラメーターの調整:グリッド検索モデルのハイパーパラメーター(+クロス検証結果)は良い方法ですが、私の経験では、パフォーマンスが大幅に向上することはめったにありません(確かに5%から90%にはなりません)。

できることは他にもありますが、これらの点は十分に一般的です。


1

@DaFanatと@Arunの提案に加えて、視覚的な検査が役立つ場合があることを付け加えておきます。

たとえば、一部の外れ値が影響を与える可能性があります。収益管理の問題に取り組み、影響力のあるポイントを常に調査する必要がありました。外れ値は、プロモーションキャンペーンや割引などの特定の1回限りのイベントに関連付けられることが非常によくありました。R2


これは確かに収益管理の問題なので、ドメイン固有の入力を共有していただきありがとうございます
熱狂者
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.