Anscombeのカルテットと同様の目的で構築されたデータセット


32

私はちょうどAnscombeのカルテット(ほとんど区別できない記述統計を持っているが、プロットすると非常に異なって見える4つのデータセット)に出くわしました。統計分析の。


3
このサイトには、これまでに数百のそのようなデータセットが、その答え全体に散らばっていなければなりません。それらを検索する体系的な方法はありませんが、回帰タグなどの人気のあるタグの最も投票数の多いスレッドをざっと見てみると、多くのことがわかりますこの検索を試してください。
whuber

回答:


30

一般的な誤解*の反例として機能するデータセットは存在します-私はさまざまな状況で多くの自分を構築しましたが、それらのほとんどはあなたにとって興味深いものではないでしょう、私は確信しています。

*(これは、Anscombeデータが行うことです。これは、モデルの品質が、あなたが言及した同一の統計から識別できるという誤解の下で操作している人々に対する応答ですから)

ここに、私が生成するほとんどのものよりも興味深いものをいくつか紹介します。

1)(かなりの数の)1つの例は、ゼロの3次モーメントの歪度が対称性を意味するという一般的な主張に対抗するために構築したいくつかの離散分布(およびデータセット)の例です。(ケンドールとスチュアートの統計高度な理論は、より印象的な連続した家族を提供します。)

これらの離散分布の例の1つを次に示します。

バツ415Pバツ=バツ2/63/61/6

(これにより、サンプルケースの反例のデータセットは明らかです:)441115

ご覧のとおり、この分布対称ではありませんが、その3次モーメントの歪度はゼロです。同様に、2番目に一般的な歪度測定である2番目のピアソン歪度係数()に関して、同様の主張に対する反例を容易に構築できます。3meanmedanσ

実際、2つの指標の符号が反対の分布および/またはデータセットも考え出しました。これは、歪度がやや滑りやすいアイデアではなく、単純に理解しやすい単一の概念であるという考えに対抗するのに十分です多くの場合、適切に測定する方法を知っている。

2)Choonpradub&McNeil(2005)のアプローチに従って、この回答のマルチモーダル分布の箱ひげ図に構築されたデータのセットがあります。

ここに画像の説明を入力してください

特に、対称箱ひげ図で明らかに歪んだ分布は、人々を驚かせる傾向があります。

3)ヒストグラムへの過度の依存に応じて構築した反例のデータセットのコレクションがさらにいくつかあります。特に、数個のビンと1つのビン幅とビン起源でのみです。これにより、分布形状に関する誤った自信のある主張につながります。これらのデータセットと表示例はこちらにあります

そこからの例の1つです。これはデータです:

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

そして、ここに2つのヒストグラムがあります:

スキューvsベル

10.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

PB>A>12

次に、そのようなデータセットの1つを示します。各サンプルに30個の観測値があり、A〜Dというラベルが付けられています。

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

以下にテストの例を示します。

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

ご覧のとおり、片側検定ではnullが拒否されます。Aからの値はBからの値よりも小さくなる傾向があります。同じ結論(同じp値)がBとC、CとD、およびDとAに適用されます。この拒否のサイクル自体は、自動的には問題になりません。 、それが解釈しないことを意味すると解釈しない場合。(同様の、しかし大きなサンプルで、はるかに小さなp値を取得するのは簡単なことです。)

ここでの大きな「パラドックス」は、ロケーションシフトの間隔(この場合は片側)を計算したときに発生します。すべての場合で0が除外されます(間隔はそれぞれ同一ではありません)。これにより、データ列をAからB、C、Dの順に移動すると、場所は右に移動しますが、Aに戻ると同じことが再び起こるという結論に至ります。

これらのデータセットのより大きなバージョン(値の類似の分布、より多く)を使用すると、実質的に小さな有意水準で有意(1つまたは2つのテール)を取得できるため、たとえば、Bonferroni調整を使用して、それぞれを結論付けることができますグループは、次のものからシフトされたディストリビューションから来ました。

これは、とりわけ、ウィルコクソン・マン・ホイットニーでの拒絶がそれ自体で位置シフトの主張を自動的に正当化しないことを示しています。

(これらのデータには当てはまりませんが、サンプル平均が一定であるセットを作成することもできますが、上記のような結果が適用されます。)

後の編集で追加:これに関する非常に有益で教育的な参照は

ブラウンBM、およびヘットマンスペルガーTP。(2002)
Kruskal-Wallis、複数の同胞およびエフロンダイス。
Aust&N.ZJ Stat。44、427から438まで。

5)別の関連する反例がここにあります-ANOVAは重要かもしれませんが、すべてのペアワイズ比較はそうではありません(そこで2つの異なる方法を解釈し、異なる反例を生成します)。


したがって、遭遇するかもしれない誤解と矛盾する反例のデータセットがいくつかあります。

ご想像のとおり、通常は必要に応じて、(他の多くの人と同様に)このような反例を合理的に頻繁に作成します。これらの一般的な誤解のいくつかについては、新しい例が自由に生成されるような方法で反例を特徴付けることができます(ただし、多くの場合、特定のレベルの作業が含まれます)。

あなたが興味を持っているかもしれない特定の種類のものがあれば、私はより多くのそのようなセット(私のものまたは他の人のもの)を見つけることができるかもしれません。


必要な係数を持つランダム回帰データを生成するための便利なトリックの1つは次のとおりです(括弧内の部分はRコードの概要です)。

a)ノイズなしで必要な係数を設定します(y = b0 + b1 * x1 + b2 * x2

b)所望の特性を持つエラー項を生成します(n = rnorm(length(y),s=0.4

c)同じxのノイズの回帰を設定する(nfit = lm(n~x1+x2)

d)その残差をy変数に追加します(y = y + nfit$residuals

できた (実際には、Rの数行ですべてを実行できます)


6
0,0,1,1,1,1,3は、平均、中央値、モードの一致が対称分布を意味するという一般的な主張に対する反例ですが、などの二項分布はの方が優れているようです。10k0.1k0.910kk=010
ニックコックス

@Glen_bありがとう。それどころか、非常に興味深い。たとえば、データxと次のコード行を含むsturges.Rという名前のファイルを保存しました。hist(x、col = "green3"、freq = FALSE); hist(x、breaks = "Scott"、col = "aquamarine"、freq = FALSE); hist(x、breaks = "FD"、col = "darkgreen"、freq = FALSE)セル数のデフォルトとしてスタージのルールを使用しないようにRコミュニティを説得できなかった人がいることを知っています-あなたの例はおそらくRob Hyndmanによる未発表の理論メモよりも説得力のある議論。
休止

@Hibernating明快さの欠如に対する謝罪-私は自分に起こった興味深いものを選びました。私が言ったように、反例の生成は定期的に発生しますが、それらのほとんどは(直接の聴衆以外では)面白くないでしょう。ときどきいくつかがありますので、私が考えることができるすべてのものを言及しました。スタージのルールの問題を示すサンプルを作成する場合は、サンプルをそれとは異なるものにします。(例の主な価値は、単一のルールにまったく依存するべきではなく、一般的なルールよりも多くのビンに傾く必要があることを明確に実証することにあると思います。)
Glen_b -Reinstate Monica 13/12/19

2
@NickCox Aに小さい反例私が作ら-2、-1、0、0、3である「平均=中央値=モードは対称性が意味する」この質問。私は疑い、我々はモードを形成するために2つのデータ点を使用するように、第3の異なる点は、平均=中央値を台無しになる、可能な限り最小であり、そしてIは、第四の点のみを対称に配置することにより、平均=中央値=モードを復元することができると思います。とにかく、あなたの二項式の例は、より不自然なように見えるので、より満足です!n=5
シルバーフィッシュ14年

16

同様の目的で(たとえば、独自の)データセットを生成することに関して、以下に興味があるかもしれません。

統計でトリッキーな/直感に反する現象を実証するために単に使用されるデータセットに関しては、たくさんありますが、どの現象を実証したいかを指定する必要があります。たとえば、シンプソンのパラドックスの実証に関しては、バークレーの性別バイアスケースデータセットは非常に有名です。

最も有名なデータセットの優れた議論については、「Iris」データセットのどの側面がexample / teaching / testデータセットとして非常に成功しているのかを参照してください。


1

論文「ゴミ箱回帰とゴミ缶プロビットをそれらが属するところに置いてみよう」(C. Achen、2004)では、著者は、データが実際の場合測定中にコーディングエラーが発生した可能性があります(たとえば、データをカテゴリ値に割り当てる際の歪み、または誤った量子化手順)。

合成データは、2つの正の係数を持つ完全な線形関係から作成されますが、非線形コーディングエラーを適用すると、標準の回帰手法により、符号が間違っており、統計的に有意な係数が生成されます(さらに、より大きな合成データセットをブートストラップした場合)。

それはほんの小さな合成データセットですが、この論文は単純な「右側に考えることができるすべてをダンプする」ような回帰の大きな反論を提示し、小さな/わずかな非線形性(実際にはかなりコーディングエラーや量子化エラーなどによく見られますが、標準の回帰プッシュボタン分析の出力を信頼するだけで、誤解を招くような結果を得ることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.