塊の標準的な尺度?


13

私はたくさんのデータを持っているので、とてもシンプルに思える何かをしたいと思っています。この大規模なデータセットでは、特定の要素がどれだけ集まっているかに興味があります。私のデータが{A、C、B、D、A、Z、T、C ...}のような順序付けられたセットであるとしましょう。セット全体にランダムに(またはより均等に)分布するのではなく、Aが隣り合って見つかる傾向があるかどうかを知りたいとします。これは、私が「塊」と呼んでいる特性です。

さて、データの「塊」の簡単な測定はありますか?つまり、Asがランダムに分散されている範囲からどれだけ離れているかを示す統計情報ですか?そして、これを行う簡単な方法がない場合、大雑把に、難しい方法は何でしょうか?ポインタは大歓迎です!

回答:


14

例として、各位置がアルファベットの小文字のいずれかと等しい確率を持つ順序セットがあるとします。この場合、順序付きセットに要素が含まれるようにします。1000

# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)

これは、順序付けられた集合の位置の各々は、アルファベットの小文字の文字にわたって均一な分布に従う場合には、同じ文字の2つの存在との間の距離は、パラメータと幾何分布は以下のことが判明し。この情報を考慮して、同じ文字が連続して出現する間の距離を計算しましょう。p=1/26

# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
    d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)

同じ文字の出現間の距離のヒストグラムを見て、それを上記の幾何分布に関連付けられた確率質量関数と比較しましょう。

hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
     ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)

赤い点は、順序付けられたセットの各位置が文字上の均一な分布に従う場合に予想される距離の実際の確率質量関数を表し、ヒストグラムのバーは順序付けられた距離に関連付けられた距離の経験的確率質量関数を表しますセットする。

ここに画像の説明を入力してください

うまくいけば、上の画像が幾何学的分布が適切であると納得させることです。

p=1/260

d.flatBhattacharyya Distanceに関して、上記から予想される幾何学的分布と比較してどうですか?

b.dist <- 0
for(i in x) {
    b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
              prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)

0.0260

編集:

0.026010000

gen.bhat <- function(set, size) {
    new.seq <- sample(x = set, size = size, replace = TRUE)
    d <- vector(mode = 'list', length = length(unique(set)))
    for(i in 1:length(unique(set))) {
        d[[i]] <- diff(which(new.seq == set[i]))
    }
    d.flat <- unlist(x = d)
    x <- range(d.flat)
    x <- x[1]:x[2]
    b.dist <- 0
    for(i in x) {
        b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
                  prob = 1/length(unique(set))))
    }
    b.dist <- -1 * log(x = b.dist)
    return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))

ここで、上記のBhattacharyya Distanceを観測する確率、またはその位置のそれぞれが文字上の均一な分布に従うように順序付けられたセットが生成された場合のもう1つの極端を観測する確率を計算できます。

p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
            sum(dist.bhat > b.dist) / length(dist.bhat))

0.38

0999

ここに画像の説明を入力してください


最初の段階では、文字の分布は多項分布であり、各文字の確率は等しいと仮定しているように見えます。分布の文字の確率が等しくない場合はどうなりますか?-各文字の出現間の距離の予想される分布は、まだ幾何学的ですか?そして、どのパラメータで?
ttnphns

各文字の確率が等しくない場合、各文字の出現間の距離は依然として幾何学的です。ただし、パラメーターは文字ごとに異なり、文字ごとに、その文字を含む順序付きセット内の位置の確率に等しくなります。
想定

1
私はあなたのアプローチが好きです。各文字の数が固定されており、すべての可能な順序の間で順序が均一に描かれていると仮定する方が現実的ではないでしょうか?残念ながら、その場合の分布が何なのかわかりません。何か案が?
gui11aume

@ gui11aumeそれは興味深い考えです。観察された順序セットを何度も置換し、統計を使用して元の順序セットが置換にどれだけ似ているかを確認する一種の置換テスト手法について言及していますか?
想定

はい、それは私が念頭に置いているものです。その後、Bhattacharyya距離またはKullback-Leibler発散を使用して、完全混合からの逸脱を測定できます。
gui11aume

7

まさにあなたが説明していることは、Runs Testと呼ばれる手順に体系化されています。マスターするのは複雑ではありません。統計テストの多くの情報源、例えばウィキペディアや国立研究所で見つけることができますStandards and TechnologyまたはYouTube


+1。@ Alan、RunsテストはWald–Wolfowitzテストとも呼ばれます。
ttnphns

ただし、実行テストの問題は、二分されたデータまたは二分されたデータ専用であることです。
ttnphns

0

これについて少し異なる視点に興味がある場合は、情報理論(コンピューティング、画像/ビデオ/オーディオ処理、通信理論、および(おそらくもっと驚くべきことに)物理学と宇宙論(古典的な熱力学と同様にブラックホールの理解にとって重要)および生物学。

非公式には、「ごちゃごちゃした」文字列(例のように)は、汎用圧縮アルゴリズムを適用すると、より高密度に圧縮されると言えます。つまり、生のテキストを含むzipファイルは小さくなります。同様に、「塊のある」画像(たとえば、プレーンな緑のベーズにある数枚のビリヤードボール)は、より多様な画像(人のグループの画像など)よりもはるかに効率的に圧縮されます(たとえば、より小さいjpegファイルを作成します) )。もちろん、そのようなデータの情報内容(別名、負のエントロピーまたは「ネゲントロピー」)には、特定の圧縮アルゴリズムに依存しないさまざまな正式な定義があります。

上記のより古典的な統計分析よりも情報理論的尺度が明らかになる場合の1つの例は、複数の(またはすべての)レベルの解像度で「塊」を識別することに関心がある場合です。あなたのテキスト文字列の例では、シーケンスの最初にたくさんの「A」が集まっていた場合、「A」の多くのバンチングはなく、シーケンスが継続するにつれて定期的にバンチングを増やし、バンチングを減らします。塊は複数の解像度で存在すると言うことができます-情報理論的手段によって非常に自然に捕捉できる何か。

(編集)これはばかげた質問かもしれないというあなたの懸念は、実際には「塊」の研究-情報と(負の)エントロピーを装って-私たちに現代生活の日常的な操作の両方について非常に知らせていると思います(インターネット、モバイル通信、言語自体)および宇宙の性質(ブラックホール、銀河形成、宇宙背景放射の解釈、「生きている」ものの決定)は、「愚かな質問はない」という格言で答えられるべきです。 、愚かな回答のみ」[未定の引用]。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.