平均値のパラドックス-これは何と呼ばれていますか?


22

データセットがあります。言うの観測と変数を:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

それは各カテゴリで顧客が購入()した(していない)と言う。そこにはあるので、これら顧客は平均で製品カテゴリに購入します。1010A, B, C16101.6

顧客は、A、B、Cのいずれかを購入できます。

私は購入者のみを見ればA、そこにあるに購入している顧客それはですので、製品カテゴリは、平均で。591.8

Bある再び、または。9/51.8

Cある10/6=1.67.

以上のすべて1.6。

奇妙に思えます。私はそれを理解していますが、来週マーケティングにこれを説明する必要があるので、助けが必要です!

このことは何と呼ばれていますか?

私はそれがシンプソンのパラドックスではないことを知っています。論理的には、モンティホールの問題と条件付き確率に似ていると感じています。


2
個人的に、私はあなたが何について話しているのか分かりません。As、Bs、Csの分割表を作成して、クロス購入パターンを調べてみませんか?
マイクハンター

3
「Cを購入する顧客は平均よりも価値が高い-1.67対1.6」と言うレポートがありますが、これは事実ですが、AとBも平均よりも価値があります。「どうすればすべての顧客が平均以上の価値を持つことができるのでしょうか」という避けられない疑問が生じます。
ジェームズアダムス

3
彼のパズルは、表面的には誰もが平均以上のレイクウォベゴンのように見えることだと思います。P 顧客が購入したカテゴリ/アイテムの数をとします。レッツ、、及び、それぞれのカテゴリーA、B、およびCでの購入のための指標とします。、、および whileA B C E [ X A ] = 1.8 E [ X B ] = 1.8 E [ X C ] = 1.67 E [ X ] = 1.6バツABCE[バツA]=1.8E[バツB]=1.8E[バツC]=1.67E[バツ]=1.6
マシューガン

12
補完的なセットとベン図の観点から考えたいかもしれません。「Aを購入する顧客」と「Aを購入しない顧客」のセットは重複しませ。ただし、質問にリストしたセットは重複しています。サブセットがパーティションを形成する場合にのみ、サブセット平均の(加重)平均として全体の平均を計算できます。
GeoMatt22

4
これは大多数錯覚のパラドックスに大まかに似ていますか?個人がスーパーネットワークに接続する可能性が高いのと同じように、購入カテゴリにはスーパー購入者が含まれる可能性がありますか?(私は、多くの人々とつながるスーパーネットワーク担当者と、さまざまなアイテムを購入するスーパー購入者と呼んでいます)
マシューガン

回答:


28

大規模な顧客でサブカテゴリが重複している場合、すべてのサブカテゴリの平均は全体の平均を上回る可能性があります。

直感を得る簡単な例:

  • してみましょう個人がカテゴリAにアイテムを購入したかどうかを指標となりますA
  • してみましょう個人がカテゴリBにアイテムを購入したかどうかを指標となりますB
  • レッツ購入したアイテムの数とします。バツ=A+B

AB100111

個人の集合真では、個人の集合重なるBは真であるが。それらは互いに素な集合ではありませんAB

次いで、一方E [ X | A ] = 1.5E [ X | B ] = 1.5E[バツ]1.33E[バツA]=1.5E[バツB]=1.5

本当のステートメントは次のとおりです。

PAE[バツA]+PBE[バツB]PABE[バツAB]=E[バツ]

231.5+231.5132=1.3333

あなたは、単に計算できないを設定するので、ABの重複、表現のダブルカウントアイテムの両方の購入者ABをPAE[バツA]+PBE[バツB]ABAB

幻想/パラドックスの名前は?

私はそれがソーシャルネットワークの多数派錯覚のパラドックスに関連していると主張します。

全員をネットワーク化/友人化する単一の人物がいる場合があります。その人は全体で100万人に1人であるかもしれませんが、彼は各人の人の友人のうちの1人になります。k

同様に、ここでは3つのうち1つがカテゴリAとBの両方を購入しています。しかし、カテゴリAまたはBのいずれかでは、2人の購入者のうち​​1人がスーパー購入者です。

極端な場合:

セットのロトチケットを作成しましょう。すべてのセットS iには、負けチケットiとジャックポット当選チケットの2つのチケットが含まれています。nS

すべてのセットの平均賞金はJですSここで、Jはジャックポットです。各カテゴリの平均は、チケット全体の平均賞金Jをはるかに超えていますJJ2JJn+1

これは、セールスケースと同じ概念的なダイナミクスです。すべてのセットは、すべてのカテゴリA、B、またはCが大規模な購入者を含むのと同じように、ジャックポットチケットが含まれます。S

私の一番下のポイントは、互いに素なセットに基づいた直観であり、サンプル空間の完全なパーティションは一連のオーバーラップしたセットに持ち越されませ。重複するカテゴリーを条件にすると、すべてのカテゴリーが平均を上回る可能性があります。

サンプルスペースと条件をばらばらのセットに分割する場合、カテゴリは全体の平均まで平均化する必要がありますが、重複するセットには当てはまりません。


3
ありがとう!ダブルカウントが説明の鍵だと思います。しかし、これは必ずしもいくつかの極端な値の結果ではないと思います。上記のサンプルデータセットはかなりありふれたものであり、「すべてのグループが平均を上回っています」という効果が引き続き発生しています。ほとんどの場合、それが起こると思います。名前があるのか​​、前の例があるのか​​疑問に思っただけです。
ジェームズアダムス

@JamesAdamsが分析しているデータに欠陥がある場合、この説明は当てはまりません。私はそうだと主張しています。相互排他的で完全なA、B、Cカテゴリのセットを使用することはできません。グループの平均は、データ分析のいくつかの基本的な仮定に違反することなく、3つすべての平均よりも高くなります。あなたのケースでは、それが最も可能性が高い、全体の平均は異なるため、分母が(例えば、より多くの回答者が含まれている)ことをA、BおよびCのための手段の推定に使用されるものからだ
マイク・ハンター

2
@DJohnsonもちろん、A、B、およびCのセットがサンプル空間を分割する場合は正しいです。質問と提供された「データ」(それが何であれ)の私の読書は、A、B、およびCが重複セットであるということです。A、B、Cが重複する場合、グループの平均はすべて全体の平均よりも高くなる可能性があります(これが私の答えのポイントです。セットは最大の顧客で重複します!)。OPが内部的に矛盾していると言ったことはありません。あなたの「私たちはBSデータを取得しています」検出器は私のものよりも優れているかもしれません。
マシューガン

はい、それらは重複セットです。私のデータセットは、数百万の顧客と12のカテゴリです。私の平均が全体の平均よりもすべて高いのを見たとき、奇妙に見えるが説明できると思った。10個のオブジェクトと3つのカテゴリのサンプルセットを作成して、それを確認しました。ここに1と0を散らしただけで、同じ結果になりました。これは、このタイプの平均が計算されるほとんどのデータセットで起こると思われます。@Djohnson私の例では、全体平均の分母として10、Asで5、Bsで5、Csで6を使用しています。この例で私が違反していることを教えてください。
ジェームズアダムス

「10」は何を表していますか?3つのカテゴリ全体の回答者のネット?すべてに同じ分母を使用すると、平均はどうなりますか?総平均を中心に変動する平均値を返す必要があります。
マイクハンター

10

私はこれを家族規模のパラドックスまたは同様のものと呼びます

2

  • 2
  • 21e22.313
  • 3

実際の人口統計および調査番号は異なる数字を生成しますが、パターンは類似しています

明らかなパラドックスは、個人の兄弟グループの平均サイズが家族あたりの子供の平均数よりも大きいことです。人口動態が安定しているため、人々は親よりも平均して子供が少ない傾向がある

説明は、平均が親と家族または兄弟を対象としているかどうかです:大家族に適用される異なる重みがあります。あなたの例では、個人による重み付けと購入による重み付けには違いがあります。条件付き平均は、実際に特定の購入が行われることを条件に押し上げられます。


8

他の答えは、何が起こっているかを考え直しています。1つの製品と2つの顧客があるとします。1回(一度)製品を購入し、1回は購入しませんでした。購入した製品の平均数は0.5ですが、製品を購入した顧客のみを見ると、平均は1になります。

これは、私にとって逆説的でも直観的でもないようです。製品の購入を条件付けると、通常、購入する製品の平均数が増えます。


まさに。3つのカテゴリのそれぞれの購入があまり相関していないと仮定すると、カテゴリの1つで購入率を100%に上げた後に平均を計算します。たとえば、比較する方が有益でしょう。カテゴリーBおよびCの平均購入率:a)すべての顧客(11/20)b)Aを購入した顧客(4/10)私が推測/表示しようとしているものに依存します。
コンラッド

2

これは、単に「平均の平均」の混乱(たとえば、以前のstackexchangeの質問)を装ったものではありませんか?あなたの誘惑は、サブサンプルの平均が最終的に母集団の平均になるはずであるように見えますが、これはめったに起こりません。

古典的な「平均の平均」では、だれかがN個の相互に排他的なサブセットの平均を見つけ、これらの値が母平均に対して平均化されないことに驚かされます。この平均の平均を計算する唯一の方法は、重複しないサブセットのサイズが同じ場合です。それ以外の場合は、加重平均を取る必要があります。

あなたの問題は、重複するサブセットを持つことにより、この従来の平均の平均の混乱よりも複雑になりますが、私はこのひねりを加えたこの古典的な間違いのように見えます。サブセットが重複している場合、平均が母集団の平均となるサブサンプル平均になるのはさらに困難です。

あなたの例では、複数のサブサンプルに登場する(したがって多くのものを購入した)ユーザーがこれらの平均値を増やすためです。基本的に、各ビッグスペンダーを複数回カウントしますが、1つのアイテムのみを購入する質素な人は1回しか遭遇しないため、より大きな値に偏っています。これがあなたの特定のサブセットが平均値を上回っている理由ですが、これはまだ「平均の平均」問題だと思います。

また、サブサンプルの平均が異なる値をとるデータから、他のすべての種類のサブセットを構築することもできます。たとえば、サブセットにいくらか似たサブセットを取り上げましょう。Aを購入しなかった人々のサブセットを取ると、平均で7/5 = 1.4のアイテムが得られます。Bを購入しなかったサブセットを使用すると、平均で1.4アイテムも取得できます。Cを購入しなかった人、平均で1.5個のアイテムを購入しました。これらはすべて、1.6アイテム/顧客の人口平均を下回っています。適切なデータセットとサブセットの適切なコレクションがあれば、平均が母集団の平均であるサブセットが重複する可能性があります。ただし、これは通常のアプリケーションでは一般的ではありません。

私だけですか、それとも何度も繰り返した後、平均という言葉がおかしいように見えますか...私の答えがお役に立てば幸いです。平均的な言葉を台無しにしたらごめんなさい!


ありがとう!重複しない同じサイズのパーティションに関するコメントは、私の心の中でそれを明確にしました。これらの数字を発表するとき、「すべてのカテゴリの平均は全体の平均よりも高いが、それはブラブラのパラドックスだ」と言うことができると思っていました。「シンプソンのパラドックス!、アイビーリーグのセクシズム!」そして部屋を使い果たします。(あなたはそれを時々しませんか?)「彼らは異なるサイズのサブセットが重複しているためだ」と彼らに言いたいのですが、それが上陸するとは思わない!
ジェームズアダムス

1
ハハ、結構。以前は完全にコンテキストを取得していませんでした-私は天体物理学の大学院生なので、コンテキストにあまり詳しくありません。「すべてのサブセットの平均値は全体の平均値よりも高いため、サブセットを作成した方法により大きな値に偏っているため」という簡単な説明があります。平均値の名前はあまりよく知られているわけではないので、平均値の名前については言及しません。あなたのケースはそれを一般化したようなものです。また、単語カテゴリを置き換える同義語を見つけようとします-一般的に、単語は相互に排他的なサブセットを暗示していると考えています。
-tbell

意味的飽満は、繰り返しが聞き手にとって単語やフレーズの意味を一時的に失う心理現象であり、聞き手はその言葉を繰り返し意味のない音として知覚します。
パトリック

1

問題は「わかりましたが、これをマーケティングに説明する必要がある」ため、OPは素人がこれらの事実をどのように解釈するかを懸念しているようです(事実が真実であるか、それを示す方法ではありません)。この質問は10の製品カテゴリ(AJ)を参照しているため、この例はどうですか。

[マーケティンググループとのミーティングで]
OP:したがって、ここわかるように、A、B、およびCを購入する顧客はすべて、平均よりも価値があります。
レイマン:待って!?誰もが平均よりも高くなることができますか?
OP:いい質問です。このスライドは、A、B、およびCの顧客に焦点を当てていますが、表示されていない他のパフォーマンスの低いグループがあります。たとえば、カテゴリDとGの顧客はそれぞれ平均の約半分の価値があります。

これにより、「すべてが平均を上回っている」ことについて、全員の内部bsアラームを鎮めることができます。


これは質問に答える方法ではありません。
マイケルR.チャーニック

彼の質問には答えられましたが、誰も彼の問題に対処しませんでした。
パトリック

私のコメントは、パトリックの答えに関係していました。
マイケルR.チャーニック

さまざまなスタイルの回答に対するルールはありません。(実際の、または想像上の)議論や会話を報告することは、ソクラテス以降の(そして私が知っているすべての人にとっては)彼の前の問題を通して、古くからの考え方です。
ニックコックス

しかし、その説明は事実間違っています。さらにカテゴリ(DJ)がない場合でも、観測は真実のままです。サブセットがセット全体をカバーしている場合でも、重複するサブセットの平均はすべてセット全体の平均よりも高くなる可能性があります。
イザランディ

0

ここの他の回答は無視してください。これは実際にはまったく逆説ではありませんここで誰もが無視しているように見える実際の問題は、あなたが実際に見ている確率を間違えているということです。実際、ここには2つのまったく異なる平均値と統計があり、どちらも提案された例(マーケティング)で独自の用途と解釈があります!

まず、顧客ごとに購入した製品の平均数があります。したがって、平均して1人の顧客が1.6個のアイテムを購入します。もちろん、顧客は製品の0.6を超えることしかできません(米や穀物のようなものではなく、継続的な測定値が関連付けられていると仮定します)。

第二に、特定の製品を購入する顧客の平均数があります。変だね?したがって、平均して製品には5.33333333 ...顧客がそれを購入しています。ただし、これは異なります。ここで説明しているのは、購入した製品の数(そのうち3つだけです)ではなく、実際にその製品を購入した人の数です。

このように2つの値を考えてみてください。顧客が1人しかない場合や製品が1つしかない場合、これら2つの値は何を表しますか?結局のところ、単一のデータポイントの平均は、指定されたデータポイントにすぎません。

または、さらに良いことに、チャートを、製品を購入するために費やした金額を与えているかのように考えてください。明らかに、個々の顧客が費やす平均額は、大企業(または単なる中小企業)が提供する製品が平均して稼ぐ金額よりもはるかに少なくなります。会社の幸福について議論するとき、あなたは両方の価値を使う良い方法を考えることができると確信しています。

これをマーケティングスタッフに説明するときは、私が言ったように彼らに説明してください。それはパラドックスではありません。それは全く異なる統計です。ここでの唯一の問題は、実際には、チャートを読むための2つの異なる方法(つまり、製品ごとに購入する人の数対人ごとに購入する製品の数)があることに気づいたことです。

tl; dr最初に説明したのは、個々の顧客が製品の購入に費やすことをいとわない平均金額です。2番目は、特定の製品に対する一般の需要の平均です。なぜ両方が同じものではないのか、おわかりいただけると思います。それらを比較すると、ごみの情報が得られます。


編集

質問は実際に、製品a、b、またはcを購入する顧客が費やした平均金額について尋ねているように見えます。わかった。これは実際には計算上の単なるエラーです。これをパラドックスとは呼びません。それは本当に微妙な動揺です。

列を見てください。列間で共有される人がいます。適切な加重平均を行ったと仮定しましょう。あなたはまだ二度人を追加しています。つまり、平均には2以上の値を持つ余分な人が含まれることになります。1.6でした!基本的に、あなたの平均は次のようになります。

=0nvalあなたはeOfPersonvalあなたはeOfPersonn

それは間違いなく正しい式ではありません。これは加重平均です。ただし、相互排他性を想定しているので、状況に応じて真の平均を取得するように調整します。

=0nnあなたはmberOfPeopleBあなたはyngaverageSpentByPersonBあなたはyngn

いずれにせよ、あなたは台無しにされた平均を得るでしょう。1つの間違いは、1つのカテゴリの平均の「重み」が大きいため、加重平均の必要性を無視することでした。密度のようなものです。1つの値は、人々が表す密度が高くなります。他の問題は、平均を歪める重複追加です。私はこれらの「パラドックス」のどちらとも呼びません。あなたが何をしていたかを見たら、なぜそれがうまくいかないのか私には明らかでした。加重平均は、その必要性については一目瞭然であり、値を複数回追加したことがわかると思います...それは機能しません。基本的に、値の二乗の平均を取りました。


これは事実ではないと思います。ここでは、特定の製品を購入する人の数には興味がありません。私は、顧客は、彼らがAを購入していることを考えると購入していますどのように多くの合計の製品に興味を持っています
ジェームズ・アダムス

@JamesAdams申し分なく申し分ありません。その場合、問題はさらに簡単です。サンプルのサブセットの平均値を取得しているだけです。理論的には、BとCで同じことを行った場合、最終的な平均は実際の平均にはなりません。ただし、これはサンプルが等しくないためです。それで全部です。実際、それが人に明らかである理由はわかりません。実際には、平均を修正して適切な平均を得るための解決策があります。これは加重平均と呼ばれ、基本的には各サブアベレージをそのグループの人数で「加重」します。理にかなっていますか?
グレートダック

@JamesAdamsと私はあなたがそれに興味がないことを知っています。あなたは、その平均を使って1人あたりの製品の平均数を計算しようとするパラドックスを形成したと主張する数学です。そのため、この回答では、別の統計値に2番目の平均値があり、それを完全に異なる平均値に陥れようとする「間違い」があったことを強調します。
グレートダック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.