この「現象」とは何ですか?


8

以下は、いくつかのデータのヒストグラムです。ビンは整数で、他のパラメーターは関係ありません。

重複する分布

ご覧のように、奇数と偶数の2つの別々の重複する正規分布があるようです。

偶数になる確率は1/3、奇数の場合は2/3です。

正直に言うと、これの実際の統計的有意性がわからないので、詳細を知ることさえ調べようとしていますが、何も見つけることができません。画像検索を逆にしても、マルチモーダル分布などに関する情報しか得られず、マルチモーダル分布が実際にこの方法で実際にオーバーラップする時期について何も見つからない

これに名前はありますか?

興味のある人のためのデータは、MATLABスクリプトを使用した1,000,000のランダム化されたgoofspielゲーム(N = 13)からのものです。

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

より一般的な(人工的なものですが)例は次のようになります

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

一般的な例

最初の例と同様に、2つの分布が重なり合っています(三角形と正規)。ただし、この場合は、各点で交互ではなく、ランダムです。

私はこれが誇張された例であることを知っています(そしてヒストグラムでさえありません)が、統計データで実際に起こっているこの種のことの例があるはずですよね?次に、おそらくそうではないか、それとも完全に無関係ですか?

実際の質問は2つあります
。一般的な質問- このタイプの「もの」は何と呼ばれますか。-私(またはそれに遭遇する可能性のある人)がそれについて、また調整が必要かどうかを知ることができるようにします。
具体的には最初のデータセットに関連する質問です。奇数と偶数の値を分離するか、正規分布をセット全体に当てはめる必要がありますか?


いくつかのファンキーな混合モデルのように見えます。pdfは1/3(偶数のpdf)+ 2/3(確率のpdf)です。正規分布は明らかに連続的ではないため、正規分布をどのように処理するかわかりません。
Huy Pham

質問は正確には何ですか?あなたはいくつかの奇妙な分布に従ういくつかのデータをシミュレートしているようですが、問題は正確に何ですか?
Tim

1
@Tim少しわかりやすくするために編集しました。私はこれが今よりもまれではなく、以前に研究されたという仮定の下にいると思います。そうでない場合は、問題は、最初のデータセットの分布をどのように説明またはモデル化するかということです
Benjamin Tilbury

最後の質問について@BenjaminTilbury、フィッティング。ビンのサイズを2に増やすと、通常の密度曲線をヒストグラムに簡単に合わせることができます。別のアプローチは、累積分布に適合させることです。どのオプションを選択するかは、それをどうするかによって少し異なります。おそらく、あなたの関心は累積分布関数にもっとあります。
Sextus Empiricus

これは「エイリアシング」と呼ばれます。モアレパターンは(非常に多くの)例の1つです。
whuber

回答:


4

この回答はパターンの別の原因に関連しているため、質問への直接の回答ではありません。

しかし、それは同じグラフィックの外観に関連しているため、コメントではなく回答として投稿します(Matlabスクリプトを読む前に、ヒストグラムのパターンはこの異なる原因にあると実際に思っていました)。


あなたの質問は私が最近の質問への回答にプロットしたヒストグラムを再訪させました。

古いイラスト

ビンサイズ1を使用しましたが、(個別の)結果間の距離は0.538でした。ヒストグラムの棒を、2つの値のカウントではなく、1つの値のカウントで時々プロットするようにします。

ビンサイズを調整した後、ヒストグラムはより典型的に見えました

新しいイラスト

この場合、パターンをモアレパターンと呼ぶことができます。これは、2つの離散的なスケールの不整合による人工的な明るいバンドと暗いバンドの外観です。

ただし、あなたの場合、周期的なパターンはヒストグラムの人工的な効果ではなく、確率質量関数の真に周期的な動作です。とにかく、この関連するモアレパターンについて言及することは有用だと思いました。


2
少しグーグル検索すると、モアレのパターンが似ているヒストグラムがたくさん見つかります。例えば、これにSASブログこの鳥の調査に関する記事や、このストレスに関する記事
セクストス・エンペイリコス

-1

申し訳ありませんが、定評のある名前はわかりませんが、2番目の質問に取り組むために:

奇数と偶数の値を分離するか、正規分布をセット全体に合わせる必要がありますか?

あなたはそれらを分離するべきだと思います。分析の結果、最も重要な因子/予測子は入力が奇数または偶数であることがわかったため、それらをマージするには、両方の分布をぼかし、有用性を低くする必要があります(*)。

*:もちろん、それは本当にあなたの有用性の定義に依存します。いくつかの入力があり、いくつかの出力を予測するモデルを作成したいという観点から、私はそれに取り組みます。それが重要であることがわかったら、モデルに、入力の一部または一部のパリティが重要であるというヒントを与えたいと思います。

ちなみに、Martijn Weteringsの回答のように、以前にこのようなギザギザのヒストグラムを使用したことがある場合、ビンサイズの選択に関連しています。ビンサイズの実験はLying With Statsツールボックスのもう1つのツールであることを実感しました:-)


親愛なるダウンボーター:あなたは特に何かに同意しませんでしたか?もしそうなら、私を教育してください。
ダレン・クック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.