最適な通話時間を予測する


10

カリフォルニア州のさまざまな都市にいる顧客のセット、各顧客の呼び出し時間、および呼び出しのステータス(顧客が呼び出しに応答する場合はTrue、応答しない場合はFalse)を含むデータセットがあります。

電話に出る確率が高くなるように、将来の顧客を呼び込む適切な時期を見つけなければなりません。それで、この問題の最良の戦略は何ですか?時間(0、1、2、... 23)がクラスである分類問題と見なす必要がありますか?それとも、時間が連続変数である回帰タスクと見なす必要がありますか?電話に出る確率が高いことを確認するにはどうすればよいですか?

任意の助けいただければ幸いです。同様の問題を紹介していただければ幸いです。

以下はデータのスナップショットです。


ショーンオーウェン、タスクはどのように行われましたか?私は現在、同様の問題を解決しようとしているので、あなたの経験を聞きたいと思っています-Web上のこのトピックにはあまりリソー​​スがありません。前もって感謝します!
ドミニカ

回答:


5

これを適切な変換なしの回帰問題としてモデル化すると、実際に問題が発生する可能性があります。たとえば、ほとんどの通話はおそらく昼間に応答され、夜間と早朝には応答されないことがわかっています。関係は線形ではなく曲線である可能性が高いため、線形回帰は困難になります。同じ理由で、これをロジスティック回帰の分類タスクとして扱うことも問題になります。

他の回答者が示唆しているように、データを期間に再分類すると効果的です。まず、決定木やランダムフォレストのようなものを試すことをお勧めします。

つまり、これは単純な記述統計の場合かもしれません。応答された通話の割合を時間帯(都市またはその他の人口統計で分割)でプロットすると、明確な最適時間はありますか?もしそうなら、なぜモデルで物事を複雑にするのですか?


1

以下を試すことができます:

  1. 日をさまざまな部分に分けます-早朝、朝、正午、午後、夕方、夕方、夜など。
  2. 時間の境界をその日の各部分に割り当てます。たとえば、正午は午後12時から午後1時まで可能です。
  3. 3つの新しいラベルを作成します-「お客様に電話する時間の一部」、各肯定的なケース(call = trueのステータス)に対応するラベル(朝/正午/夜)を割り当てます。これらのラベルは、ワンホットエンコード形式になります(prefer_morning = 0/1、prefer_noon、prefer_eveningなど)。
  4. コールを成功させるために、リードがその日の朝/正午/夕方の時間を好むかどうかを予測する3つのモデルを作成します。

また、表に記載されている機能(都市など)はあいまいすぎて、顧客を区別するための情報が少ないため、職業、性別などの追加機能を追加することをお勧めします。

コメントの提案に従って編集:

モデルを使用すると、各リードはprefers_morning = yes / no、prefers_noon = yes / no、prefers_evening = yes / noとして分類されます。午前中などの時間帯に基づいて、コールセンターのエージェント(またはソフトウェア)が電話をかけ、朝の優先セットに分類されたリードに電話をかけることができます。正午になると、コールソフトウェアは正午の優先リストから取得します。


@ sandeep-s-sandhuこれは、問題をデータサイエンス分類問題に変換する簡単な方法です。しかし、このアプローチにはいくつかの欠点があるようです。1。ラベル情報にはポジティブケースのみが含まれ、ネガティブケースの情報は失われます2.顧客は1つのラベルしか持てません。実際には、顧客は複数のラベルを持つことができます(つまり、私は深夜か夜に電話をかけることを好む)。どう思いますか?
nkhuyu 2016年

@ nkhuyu、1)ラベルには否定的なケースも含まれます。肯定的なケース(call = trueのステータス)ごとに、「新しいラベルを作成-「顧客に電話する時間の一部」」という文を誤解したと思います。この手順では、追加のラベルを作成します。呼び出しが成功したかどうかの元のラベルはそのままです。2)はい、そうです、答えを編集してこれを反映しました。
Sandeep S. Sandhu

@ sandeep-s-sabdhuご返信ありがとうございます。はい、誤解し​​ました。OK。次に、2つのラベル(通話のステータス、新しいラベル)があります。次に、この問題をどのように解決できますか?これは通常の分類問題ではありません。
nkhuyu

@nkhuyu、これに注意していただきありがとうございます。これをステップ4で編集および明確化しました。3つのモデルはそれぞれ、特定の時間帯のコールを選択する一連のリードを提供します。コールセンターはこれを使用して、コールに優先順位を付けます。
Sandeep S. Sandhu

1
ステップ1の後にステップ3が続き、トレーニングに適切なラベルを作成するためにこれらを提案しました。主な質問は、「電話をかける適切な時間を見つけなければならない...」でした。これらが朝/正午/夜、または時間単位などのより細かいものであるかどうかを決定するのはOPの責任です。
Sandeep S. Sandhu 2017

0

私はロジスティック回帰を使用します-あなたは彼らがピックアップしなかったサンプルが必要になるでしょう。次に、その時間を季節のダミーリグレッサとして扱います(23時間をダミー変数として扱い、1つを切片に流します)。

季節性のダミーリグレッサとして扱わない場合は、関係が線形にならないため、何らかの変換を行う必要があります。

以前、誰かが午後の半ばなどをカテゴリー変数として代用することを提案しました。ディテールがあり、ディテールが失われているため、これは悪い考えです。これは、最適なビニングを使用して関係を線形にするのと同じような効果がありますが、それでもうまくいくとは思いません。季節的なダミーの説明変数を試してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.