同じ箱とひげのプロット(平均/標準/中央値/ MAD /最小/最大)を持つAnscombeのようなデータセット


21

編集:この質問が膨らんだので、要約:同じ混合統計(平均、中央値、ミッドレンジ、およびそれらに関連する分散、および回帰)を持つ異なる意味のある解釈可能なデータセットを見つけます。

Anscombeカルテット(高次元データを視覚化する目的を参照してください)は、同じ周辺平均/標準偏差(4つのと4つので別々に)と同じOLS線形フィットを持つ4つの -データセットの有名な例です、回帰および残差平方和、相関係数。したがって、タイプの統計(周辺および結合)は同じですが、データセットはまったく異なります。y x yxyxy2R22

アンスコムのカルテット

編集(OPコメントから)小さいデータセットサイズを別にして、いくつかの解釈を提案させてください。セット1は、分布ノイズとの標準的な線形(アフィン、正確には)関係として見ることができます。セット2は、より高度な適合の絶頂である可能性のあるきれいな関係を示しています。セット3は、1つの外れ値を持つ明確な線形統計依存性を示しています。セット4はよりトリッキーですからを「予測」する試みは失敗に結びついているようです。の設計により、値の範囲が不十分なヒステリシス現象、量子化効果(が過度に量子化される可能性があります)、またはユーザーが従属変数と独立変数を切り替えました。x x xyxxx

したがって、サマリー機能は非常に異なる動作を隠します。セット2は、多項式近似によりうまく対処できます。セット4と同様に、外れ値に耐性のあるセット(など)およびセット4。編集(OPコメントから):ブログ投稿Curious Regressionsは次のように述べています:121

ちなみに、Frank Anscombeがこれらのデータセットをどのように思いついたかは明らかにしなかったと聞いています。要約統計量と回帰結果をすべて同じにすることが簡単な作業だと思う場合は、試してみてください!

アンスコムの例と同様の目的のために構築されたデータセット、いくつかの興味深いデータセットは、同じ位数ベースのヒストグラムと、たとえば、与えられています。意味のある関係と統計の混合が見られませんでした。

私の質問は次のとおり2です。同じタイプの統計を持つことに加えて、2変量(または視覚化を維持するための3変量)Anscombeのようなデータセットがあります

  • それらのプロットは、測定と測定の間の法則を探しているかのように、と 関係として解釈できます。yxy
  • それらは同じ(より堅牢な)限界特性(同じ中央値と絶対偏差の中央値)を持ち、1
  • 同じ境界ボックス:同じ最小値、最大値(したがってタイプのミッドレンジおよびミッドスパン統計)。

このようなデータセットは、各変数に同じ「箱ひげ」プロットの要約(最小、最大、中央値、絶対偏差/ MADの中央値、平均、標準)を持ち、解釈がまったく異なります。

少なくとも絶対回帰がデータセットで同じである場合はさらに興味深いでしょう(しかし、私はすでにあまりにも多くを求めています)。ロバストな回帰とロバストでない回帰について説明する際の注意点として、リチャードハミングの引用を覚えておいてください。

計算の目的は、数値ではなく洞察です

編集(OPコメントから)同様の問題は、同一の統計情報を使用したデータの生成、非類似グラフィックス、Sangit Chatterjee&Aykut Firata、The American Statistician、2007、またはクローンデータ:まったく同じ多重線形回帰近似Jでのデータセットの生成で扱われますオースト。N.-Z. 統計 J. 2009。

Chatterjee(2007)の目的は、同じ平均と初期データセットからの標準偏差を持つ新しいペアを生成し、異なる「相違/相違」目的関数を最大化することです。これらの関数は非凸関数または非微分関数になる可能性があるため、遺伝的アルゴリズム(GA)を使用します。重要な手順はオルソ正規化で構成されます。これは、平均と(単位)分散の保存と非常に一貫しています。論文の数字(論文の内容の半分)は、入力データとGA出力データを重ね合わせます。私の意見では、GA出力は元の直感的な解釈の多くを失います。(x,y)

技術的には、中央値も中間値も保持されず、論文では、、および統計を保持する繰り込み手順については言及されていません。121


3
同じ箱ひげ図の単変量データセットの直後にいる場合は、論文の開発に基づいて、しばらく前の質問への回答でセットを提供しました。ちょっと待って、掘り出します。(編集)... ここに。同じプロパティでより多くのデータセットを作成するのは簡単です...別の答えでそれを解決します
Glen_b-モニカの復活

2
しかし、反射に、私は今あなたが同じ箱ひげを持つ単変量データセットの後じゃないと仮定し、代わりにその二変量データセット追求さんとさん全て2箱ひげ図の同じセットを持って、そして同じを持っているが最小二乗線-そうですか?yxy
Glen_b -Reinstateモニカ

掘削は、特に歪度の部分で私にとって有用でした。しかし、実際には、と間に依存関係がある、より「自然な」二変量(またはそれ以上)のプロットを見ています。同様の「堅牢な」フィットはプラスになります。私は質問を編集し、うまくいけば明確にしたyxy
ローランデュバル

3
Chatterjee&Firat(The American Statistician、2007年)はこの質問に対するこの回答にリンクされており、目的に簡単に適応できるはずのかなり一般的な遺伝的アルゴリズムを提供します。
S. Kolassa -復活モニカ

1
プロットは、分布モーメントが無視されたときに無意味な母集団モーメントの例です。平均、標準偏差、歪度、およびその他の母集団モーメントは、それらの母集団を最もよく表す分布の期待値、標準偏差、歪度およびその他のモーメントに対応していません。上記のプロットをx値とy値の分布として見ると、それらはすべて異なるため、異なる分布モーメントがあります。これは、残余構造を無視するだけの場合があり、それはおそらくポイントであり、どちらも免責で無視することはできません。
カール

回答:


1

具体的には、2つのデータセットを作成し、それぞれが関係を示唆しているが、それぞれの関係は異なるが、ほぼ同じであるという問題を考えています。

  • 平均x
  • 平均y
  • SD x
  • SD y
  • 中央値x
  • 中央値y
  • 最小x
  • 最小y
  • 最大x
  • 最大y
  • xの中央値からの絶対偏差の中央値
  • yの中央値からの絶対偏差の中央値
  • x上のyの単純な線形回帰からの係数

meany=0miny=maxy

たとえば、

x019293949596979891y11201211120121

次のような上向きのV字型のグラフがあります。

グラフ

を置き換えると、おおよそだけでなく正確に、すべて同じ統計値で下向きのVが得られます。yyy


素晴らしい貢献。確かに、私は水平線がOLSについて少し浮気しました。ひっくり返すことは良い考えですが、データセットが異なる場合、それらは類似したままです。しかし、私はおそらく同じ方法で「N」形状と「W」形状は、パスの開始可能性があり、あなたは良いアイデアを持っていると思う
ローラン・デュバル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.