タグ付けされた質問 「predictive-modeling」

結果を予測するために使用される統計的手法。

1
見込み客の採点モデルのアイデア
クライアントに転向する可能性が高い見込み顧客(企業)を特定するためのモデルについて考えなければならないのですが、どのようなモデルが有用かについてのアドバイスを探しています。 私は私の知る限り、ある必要がありますデータベースは、(私はそれらをまだ持っていない)list of current clients(換言すれば、converted prospectsその機能()とsize、revenue、age、location、および、そのようなもの)list of prospects私はスコアに持っている(ということ)とその機能。ただし、以前は見込み客でしたが、クライアントへの変換に失敗した企業のリストはありません(もしそうだった場合は、ランダムフォレストを選択できたと思います。もちろん、ランダムフォレストを使用しますが、2つのデータベースの結合でランダムフォレストを実行し、クライアントをconverted見込み顧客として扱うことは悪い考えだと思いますnon-converted...) ですから、見込み客のリストから、既存のクライアントのように見える人を見つける必要があります。それにはどのようなモデルを使用できますか? (「クライアントの価値を評価し、これを同様の見込み客に適用する」、「各見込み客が廃業する可能性を評価する」などの点についても検討して、スコアリングの価値をさらに絞り込みますが、それはちょっと私の質問の範囲外です)。 ありがとう

2
モデルの解釈可能性とモデルの予測力のトレードオフを平易な言葉でどのように説明しますか?
データと質問に依存することはわかっていますが、特定のデータセットに対して、かなり複雑な非線形モデル(ただし解釈が難しい)を使用して、より優れた予測能力を提供できるシナリオを想像してください。データ内、または予測力は低くても解釈が簡単な単純なモデル(おそらく線形モデルなど)を持っています。これは、機械学習モデルを解釈する方法についてのアイデアを議論する非常に良い投稿です。 業界は非常に慎重ですが、より複雑なモデルの採用に徐々に関心を寄せています。それでも彼らはトレードオフを明確に知りたいですか?データサイエンティストは、おそらくデータチームと意思決定者の間に座っている人であり、これらのことを素人の言葉で説明できる必要があることがよくあります。 私はここでブレインストーミングをして、このようなトレードオフを非技術者に説明するためにどのような類推を思いつくかを確認しようとしていますか?

2
決定木を正しく解釈する方法は?
オンラインで見つけた意思決定ツリーを正しく解釈しているかどうかを調べています。 このディシジョンツリーの従属変数は、BradまたはGoodの2つのクラスを持つ信用格付けです。このツリーのルートには、このデータセット内のすべての2464の観測が含まれています。 良いまたは悪い信用格付けを分類する方法を決定する最も影響力のある属性は、収入レベル属性です。 私たちのサンプルでは、​​収入が低かった人々の大半(553人中454人)の信用格付けも悪かった。プレミアムクレジットカードを無制限にローンチする場合、これらの人々は無視する必要があります。 この決定木を予測に使用して新しい観測値を分類する場合、葉のクラスの最大数が予測として使用されますか?たとえば、観察xは中程度の収入、7枚のクレジットカード、34歳です。信用格付けの予測分類=「良い」 別の新しい観察結果は、観察Yである可能性があります。これは低収入に満たないため、信用度は「悪い」です。 これは決定木を解釈する正しい方法ですか、それとも完全に間違っていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.