データマイニングのリフトメジャー


36

私は多くのウェブサイトを検索して、リフトが正確に何をするのかを知りましたか?私が見つけたすべての結果は、それ自体ではなくアプリケーションでそれを使用することに関するものでした。

サポートと信頼機能について知っています。ウィキペディアのデータマイニングでは、リフトはケースの予測または分類におけるモデルのパフォーマンスの尺度であり、ランダム選択モデルに対して測定されます。しかし、どのように?信頼度*サポートはリフトの値です別の数式も検索しましたが、リフトチャートが予測値の精度で重要である理由を理解できませんリフトの背後にあるポリシーと理由を知りたいですか?


2
ここにコンテキストが必要です。マーケティングでは、これはさまざまなマーケティング活動から予想される売上増加率を示すチャートになりますが、おそらく異なるコンテキストを念頭に置いています。
-zbicyclist

回答:


59

「リフト」がどのように役立つか例を示します...

顧客が応答することを期待して、顧客にオファーを郵送するダイレクトメールキャンペーンを実行しているとします。過去のデータでは、顧客ベースをランダムに完全に郵送すると、約8%の顧客が郵送に応答します(つまり、顧客が来てオファーを購入します)。したがって、1,000人の顧客にメールを送信すると、80人のレスポンダーが期待できます。

ここで、ロジスティック回帰モデルを履歴データに当てはめて、顧客が郵送に応答する可能性があるかどうかを予測するパターンを見つけることにします。ロジスティック回帰モデルを使用すると、各顧客に応答の確率が割り当てられ、実際に応答したかどうかがわかるため、精度を評価できます。各顧客に確率を割り当てたら、最高得点から最低得点の顧客にランク付けします。次に、次のような「リフト」グラフィックを生成できます。

ここに画像の説明を入力してください

今のところ、トップチャートは無視してください。一番下のグラフは、応答の確率(高から低)に基づいて顧客を並べ替え、10個の等しいビンに分割した後、ビン#1(顧客の上位10%)の応答率は29 29/8のリフト= 3.63の場合、ランダム顧客の8%に対する%。4番目のビンで顧客を獲得するまでに、以前の3つを非常に多くキャプチャしているので、応答率はランダムに人々に郵送することを期待するよりも低くなります。

上のグラフを見ると、これは、顧客の確率スコアを使用すると、回答者全体の60%を獲得でき、得点のある顧客の上位30%のみを郵送することでランダムに郵送できるということです。つまり、このモデルを使用すると、得点のある顧客の上位30%のみを郵送することで、郵送料の30%で期待利益の60%を得ることができます。これがリフトの実際の意味です。


素敵な説明ありがとうございます。ランダムチャートが必要な理由をリフトチャートで教えてください。8%はランダムからのものであると理解しましたが、なぜランダムにトレースする必要があるのですか?値の平均を追跡する別のグラフを見ましたが、平均の存在理由もわかりません
-Nickool

私が得たのは、lift = 3.63は、列4まで8%よりも良い応答率があることを言っているということです、その後、列1を仮定し、29%(推定で30%)を考慮することで列1を検討した。では、3.63でどのようなリフトが行われましたか?
ニコール

1
何てことだ!私の間違いは、30%が29%に関連していないことを理解しました。30%は、データの3/10 3列目を意味します。今、私はそれを完全に理解しました:DIはとても幸せです!!!!! ありがとう>:D <
Nickool

1
@nik:各顧客に郵送するのに紙と郵便料金が$$ 1かかります。単純に、ことができ、 1 =現在 300であり、48人の顧客を期待しています。次に、各顧客からどの程度の利益が得られるかを推定します。Spend- -300-get-48-customersがあり、どちらを選択するかは顧客ごとの利益に依存します。1000mailingall1000customersandweexpect8300)thenweexpecttoget601000get80customersvsSpend
ジョシュヘマン

1
@ user1700890上のチャートはしばしば累積ゲインチャートとラベル付けされますが、下のチャートは累積リフトチャートと同じではなく(リフトが1より低くなることはありません)、データを10個の個別のビンに分割します。
ロバートF

3

リフトチャートは、モデルの応答とそのモデルの不在の比率を表します。通常、これはXのケースの割合とY軸の応答が優れている回数で表されます。たとえば、ポイント10%でlift = 2のモデルは次のことを意味します。

  • 母集団の10%をとるモデルがない場合(モデルがないため順序なし)、y = 1の割合は、y = 1の総母集団の10%になります。

  • モデルでは、この割合の2倍が得られます。つまり、y = 1の場合、総人口の20%が得られます。charラベルXでは、予測によって順序付けられたデータを表します。最初の10%は上位10%の予測です


3

リフトは、信頼度と期待される信頼度の比に他なりません。関連ルールの分野では、「1.0より大きいリフト率は、前件と後件の間の関係が、2つのセットが独立している場合に予想されるよりも重要であることを意味します。リフト率が大きいほど、関連が大きくなります。 」例えば-

スーパーマーケットデータベースに100,000のPOSトランザクションがあり、そのうち2,000がアイテムAとBの両方を含み、そのうち800がアイテムCを含む場合、関連付けルール「AとBが購入された場合、Cは同じで購入されます」 800件のトランザクション(または0.8%= 800 / 100,000)、40%(= 800 / 2,000)の信頼度をサポートしています。サポートを考える1つの方法は、データベースからランダムに選択されたトランザクションに前件と後件のすべてのアイテムが含まれる確率であるのに対して、信頼度はランダムに選択されたトランザクションに含まれるすべてのアイテムが含まれる条件付き確率ですその結果、トランザクションには前件のすべてのアイテムが含まれます。

上記の例を使用すると、この場合、期待される自信は、「AとBを購入してもCを購入する確率が向上しない場合の自信」を意味します。結果を含むトランザクションの数をトランザクションの総数で割ったものです。Cのトランザクションの総数が5,000であるとします。したがって、期待される信頼度は5,000 / 1,00,000 = 5%です。スーパーマーケットの例では、リフト=信頼度/期待される信頼度= 40%/ 5%= 8です。したがって、リフトは、if(前件)部分が与えられたthen(後件)の確率の増加に関する情報を提供する値です。 ここにソース記事へのリンクがあります


2

リフトは、ルールの重要性を測定するための単なる尺度です

この規則が偶然にリストにあるかどうかをチェックする手段

リフト=信頼度/期待される信頼度


0

前件と後件を持つ関連付けルールの有効性をテストしている食料品店の例を使用しているとします(たとえば、「顧客がパンを購入すると、バターも購入します」)。

すべてのトランザクションを見て、ランダムに1つを調べた場合、そのトランザクションに結果が含まれる確率は「期待される信頼度」です。前件を含むすべてのトランザクションを確認し、それらからランダムなトランザクションを選択した場合、そのトランザクションに後件が含まれる確率は「信頼」です。「リフト」は、本質的にこれら2つの違いです。リフトを使用すると、確信度の高い2つのアイテム間の関係を調べることができます(確信度が低い場合、リフトは本質的に無関係です)。

彼らが高い信頼性と低いリフトを持っている場合、アイテムが頻繁に一緒に購入されることはまだわかっていますが、結果が前件のせいで起こっているの、それとも単なる偶然であるのかはわかりません「どちらも非常に人気のある製品ですが、相互に関係はありません)。

ただし、信頼度とリフトが両方とも高い場合、結果は前件によって発生していると合理的に推測できます。リフトが高くなるほど、2つのアイテム間の関係が単なる偶然である可能性が低くなります。数学用語で:

リフト=信頼度/期待される信頼度

この例では、ルールの信頼度が高く、リフトが低い場合、多くの顧客がパンとバターを購入していることを意味しますが、パンとバターの特別な関係によるものなのか、それともパンとバターは個々に人気のあるアイテムであり、食料品のカートに一緒に現れることが多いという事実は単なる偶然です。ルールの信頼度が高く、リフトが高い場合、これは前件と後件の間にかなり強い相関関係があることを示しています。つまり、顧客がパンを購入しているという事実のためにバターを購入していると合理的に推測できることを意味します。リフトが高ければ高いほど、このアソシエーションに自信を持つことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.