対数正規分布とべき法則分布の違いの解釈(ネットワーク次数分布)


22

まず、私は統計学者ではありません。しかし、私は博士号の統計ネットワーク分析を行っています。

ネットワーク分析の一環として、ネットワーク度の相補累積分布関数(CCDF)をプロットしました。私が見つけたのは、従来のネットワーク分布(WWWなど)とは異なり、分布は対数正規分布に最も適しているということです。私はそれをべき法則に適合させようとしましたが、Clauset et alのMatlabスクリプトを使用して、曲線の尾部がカットオフのあるべき法則に従うことがわかりました。

ここに画像の説明を入力してください

点線はべき乗則を表します。紫色の線は、対数正規フィットを表します。緑の線は指数近似を表します。

私が理解するのに苦労しているのは、これがすべて意味するものですか?このトピックについて少し触れているNewmanのこの論文を読んだことがあります:http : //arxiv.org/abs/cond-mat/0412004

以下に私の推測を示します。

次数の分布がべき法則の分布に従う場合、リンクとネットワークの次数の分布に線形の優先的アタッチメントがあることを理解します(豊かになるほど豊かな効果またはユールプロセス)。

私が目撃している対数正規分布では、曲線の始まりに準線形の優先的付着があり、べき乗則によって適合することができる尾部に向かってより線形になると言うのは正しいですか?

また、対数正規分布は確率変数の対数(Xなど)が正規分布しているときに発生するため、対数正規分布ではXの値が小さく、Xの値が小さいべき法則分布に従うランダム変数は

さらに重要なことは、ネットワーク度の分布に関して、対数正規の優先添付ファイルはまだスケールフリーネットワークを示唆していますか?私の本能は、曲線の尾部がべき法則で適合できるため、ネットワークはスケールフリー特性を示すと結論付けることができることを教えてくれます。


2
マイク、あなたが見ているプロットを見るのはとても面白いと思う。回答を編集して、それを含めてもよろしいですか?私がすぐに気づいたことの1つは、べき法則と優先的愛着に関する意味が逆向きであることです。(一部の)優先的なアタッチメントスキームはべき乗則の度数分布を生成しますが、逆の意味はありません(つまり、唯一の方法ではありません)。どんな種類のネットワークを見ているかに関するいくつかの情報も役に立つかもしれません。乾杯。
枢機

1
優先的なアタッチメントは、単に「豊かになるほど豊かになる」効果の別名です。その場合、線形(べき法則)ネットワーク次数分布は、優先的なアタッチメントを示すことができる多くの次数分布の1つにすぎませんか?言い換えると、log-logプロットで曲線の勾配が負である限り、分布に関係なく、いくつかの優先的なアタッチメントの要素がありますか?その場合、対数正規分布とべき乗則の分布の違いは、優先的な付着があるかどうかではなく、その比例関係です。
マイク

1
優先接続は、ネットワークのべき法則次数分布を生成する(確率的)プロセスであることに注意してください。線の勾配は、べき乗則のスケーリング指数に従って変化しますが、対数正規分布の場合、プロットはテールでも直線ではありません。生存分布の勾配は、効果が何であっても常に負になります。(なぜ?)
枢機

それは非常に良い編集です。マイケル、ありがとう!示された領域での対数正規近似は非常に注目に値します。尾が少し壊れているようです。
枢機

枢機。、もう一度ご返信いただきありがとうございます。私が観察しているネットワークでは、優先添付ファイルがまだ機能していることに同意しますか?つながるもう1つの質問は、ネットワークがスケールフリーかどうかです。ネットワークで優先接続が機能している場合、およびネットワークに新しいメンバーがいる限り、ネットワーク度分布が線形でなくても、ネットワークをスケールフリーとして分類できます。これは私がよく分からないところです。
マイク

回答:


12

質問を2つの部分に分けると役立つと思います。

  1. あなたの経験的分布の関数形式は何ですか?そして
  2. その機能形式は、ネットワークの生成プロセスについて何を意味しますか?

p>0.1バツ15p<0.1基本的に同じことを行うことを意味します。そのモデルを、次数分布データの生成プロセスとして拒否できますか?そうでない場合は、対数法線を「妥当な」カテゴリに入れることができます。

バツ1

2番目の質問は、実際には2つのうち難しいです。上記のコメントで指摘したように、べき乗則分布を生成するメカニズムは数多くあり、優先的なアタッチメント(すべてのバリエーションと栄光)は多くのメカニズムの1つにすぎません。したがって、データ内のべき法則の分布を観察するだけでは(必要な統計テストに合格する本物の分布であっても)、生成プロセスが優先的な付加であると結論付けるのに十分な証拠ではありません。または、より一般的には、データに何らかのパターンXを生成するメカニズムAがある場合(ネットワーク内の対数正規度分布など)。データのパターンXを観察することは、データがメカニズムAによって生成されたことの証拠ではありません。データはAと一致していますが、それはAが正しいメカニズムであることを意味しません。

Aが答えであることを実際に示すには、そのメカニズムの仮定を直接テストし、システムにも当てはまることを示す必要があります。また、できればメカニズムの他の予測もデータに当てはまることを示す必要があります。Sid Rednerが仮定テストの部分の実に素晴らしい例を行いました(このホワイトペーパーの図4を参照)。引用ネットワークでは、線形優先アタッチメントの仮定が実際にデータに保持されることを示しました。

最後に、「スケールフリーネットワーク」という用語は文献で過負荷になっているため、避けることを強くお勧めします。人々はこれを使用して、べき法則の度数分布を持つネットワークを参照し(線形)優先接続によって成長したネットワークへ。しかし、先ほど説明したように、これら2つのことは同じではないため、1つの用語を使用して両方を参照するのは混乱を招くだけです。あなたの場合、対数正規分布は古典的な線形優先接続メカニズムと完全に矛盾しているため、対数正規が質問1(私の答えでは)の答えであると判断した場合、ネットワークは 'その意味で「スケールフリー」。べき乗則分布として上裾が「大丈夫」であるという事実は、その場合、経験的分布の上裾の一部が常にそのテストに合格するため、無意味になります(そして、テストは続行するデータがあまりない場合、電力が失われます。これは、まさにアッパーテールで発生します)。


アッパーテールフィットのp値について話すときに<と>を混同しましたか?
デビッドネイサン

このコメントのp値条件は正しいです。ここで言及するp値は、arxiv.org / abs / 0706.1062のセクション4.1からのものです。ここで、大きな値は適合度が高く、小さな値は適合度が悪いことを表します。17ページの下部にある特定の脚注8を参照してください
ジョナサンS.

3

このようなクールな質問。私はCrossValidatedの他の場所で尋ねた質問に関連するこれについて関連する会話をしています。そこで、私はガンマ分布がソーシャルネットワークのシミュレーションで使用するのに適した分布であるかどうかを尋ねました。ソーシャルネットワークでは、結びつきの確率はノードの連続した「ポピュラリティ」特性に内因性です。@NickCoxは、代わりに対数正規分布を使用することを提案しました。人気は多くの正の値のランダム変数(富、収入、身長、性的能力、戦闘能力、IQ)の積として解釈される可能性があるため、対数正規分布は人気を説明する基本プロセスとして何らかの理論的正当性があると答えました。これは、べき法則の理論的正当化よりも理にかなっており、経験則のデータと一致します。これは、べき法則の形状が柔軟性に欠け、度数分布のクロスネットワーク変動を説明できないことを示唆しています。対数正規、比較すると、非常に柔軟な形状で、分散が大きい場合はモードがゼロに近づきます。さらに、優先度の高いアタッチメント効果により、次数分布の歪度が分散とともに増加するはずです。

要するに、対数正規分布は度数分布形成の基礎となるプロセスをべき法則や指数分布よりもよく説明しているため、対数正規分布はデータに最も適していると思います。


2

気泡分布を数え、粘度データにべき乗則を使用してからこのサイトにアクセスします。

Clauset et alによるべき法則の論文のサンプルデータセットをざっと見てみましょう。彼らは、彼らの議論を支持するべきであるべき法則データセットとはかけ離れた、データセットの本当の恐ろしさを示しました。常識から言えば、ほとんどの場合、べき乗則関数をデータ範囲全体に当てはめようとはしなかったでしょう。ただし、実世界での自己スケーリングの動作は、監視対象システムの一部で有効である場合がありますが、一部のシステムプロパティが物理的または機能的な制限に達すると壊れます。

以下の非常に読みやすい論文は、生態学者に適した成長曲線に言及しており、人口行動の観察に基づくモデルに基づいて、べき法則と関連する分布について十分に議論しています。

著者は、Clauset et al。よりもはるかに実用的です。引用:「...目的がベストフィットのみであり、データセットのスケールウィンドウ外のスケールが説明されていない場合、適切なフィットを生成し、検討されたスケールウィンドウ内で最大値または最小値を生成しないため、どのモデルでも十分です。 」「パラメータ値を比較できるようにするために、他の研究者がデータに適用したように、しばしば同じモデルに適合させる必要がありますが、より適切なモデルまたはより良いモデルの適用に加えてこれを行うことができます形状、またはその両方。」安らかな言葉。

Tjørve、E.(2003)。種面積曲線の形状と機能:可能なモデルのレビュー。Journal of Biogeography、30(6)、827-835。

Tjørve、E.(2009)。種面積曲線の形状と機能(ii):新しいモデルとパラメーター化のレビュー。Journal of Biogeography、36(8)、1435-1445。


1

上記の結果は、次数分布がべき法則と対数正規の両方である可能性があることを示しています。これは、調査対象のネットワーク内に小さな世界とスケールのない特性が共存することを示唆します。ネットワークが優先的に接続されており(一定のスケーリングパラメーターを使用)スケールフリーであるかどうかを調べるには、多くの場合、実験設計が必要です。上記のSid Rednerの記事では、成長メカニズムを理解するために成長率が使用されています。Gallos、Song、およびMakseはネットワークをカバーするためにボックスを使用し、NB(lB)〜lB ^ -dBの場合、ネットワーク次数分布はべき乗則分布に従うと結論付けます。または、クラスター係数と次数の関係を調べる(関係がべき乗則を満たすかどうか)。それ以外の場合、階層型ネットワークにはスモールワールドとスケールフリーの両方のネットワークプロパティがあることが説明されています。(フラクタルスケールを無料で入力、

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.