現実のネットワーク/グラフのすべてのエッジが統計的に偶然に発生する可能性が高いとはどういう意味ですか?


11

このホワイトペーパーで概説されているバックボーンネットワーク抽出方法を使用しています。http//www.pnas.org/content/106/16/6483.abstract

基本的に、著者は、グラフの各エッジに対して、エッジが偶然に起こった可能性がある確率を生成する統計に基づく方法を提案します。典型的な統計的有意性カットオフ0.05を使用しています。

私はこの方法をいくつかの現実のネットワークに適用してきましたが、興味深いことに、一部のネットワークはエッジがそれほど重要ではなくなります。これがネットワークに何を伴うかを理解しようとしています。この方法をネットワークに適用したがエッジがまったくなかったのは、生成したランダムなネットワークにこの方法を適用したときだけでした。これはまさに期待通りの結果でした。

実社会のネットワークの例として、エコノミストが過去25年間に米国上院の二極化を示した最近のネットワークの視覚化を見たことがあります:http : //www.economist.com/news/united-states/21591190 -united-states-amoeba。これらのネットワークにバックボーンネットワーク抽出方法を適用しましたが、重要なエッジはありませんでした。生のエッジは明らかに優先的な接続とクラスタリングを示していますが、これは偶然ですか?上院の投票ネットワークは本質的にランダムですか?

回答:


6

バックボーンメソッドの背後にある帰無仮説は

次数kの特定のノードの接続に対応する正規化された重みは、一様分布からのランダム割り当てによって生成されます。

「重要な」エッジがない場合は、グラフ全体に帰無仮説が当てはまります。つまり、エッジの重みは、ノードのタイを送受信する傾向から生じます。

分析する関係によっては、バックボーン方式が適切でない場合があります。この方法は、概念的には1モードの重み付けネットワークであるネットワークに最適です。2モードのネットワークは、重み付けされた1モードのネットワークとして投影できますが、そうしても意味がない場合がよくあります。

エコノミストでの例を参考にすると、上院の投票を共有投票の数で重み付けされたワンモードネットワークとして分析することは意味がありません。上院での投票は、署名された2つのモードの関係です。上院議員(i)は法案(j)と関係があり、投票を控える(0)か、立法案に賛成(+1)または反対(-1)します。ネットワークを加重1モード合意ネットワークに変換し、バックボーン分析を実行すると、データが大幅に削減されます。一部の立法案は政治的に分裂的であり、他の立法案は他よりも投票数が多い-バックボーン方式ではこれらのメカニズムを捉えられない。

バックボーンメソッドの代わりに条件付き均一グラフ(CUG)テストを検討することもできます。これらのテストの背後にある考え方は、特定のグラフレベルのプロパティ(たとえば、クラスタリング、平均パス長、集中化、同形性)が偶然に起因するものかどうかを判断することです。プロセスは次のとおりです。

  1. 観測されたグラフから測定f
  2. 観測されたグラフの特定のプロパティ(サイズ、エッジの数、次数分布など)を制御するランダムグラフを生成します。
  3. ランダムグラフから測定fを取得
  4. ステップ2と3を何度も(たとえば1000)繰り返して、null分布を作成します。
  5. 観測された測定値をヌル分布と比較します

2モードネットワークの場合、観測されたグラフを並べ替えることでランダムグラフを作成することは理にかなっています(Rのtnetとstatnetの両方に2モードネットワークを並べ替えるルーチンがあります)。測定fが1モードネットワークを必要とする場合、ランダム化プロセスは、1モードネットワークとして投影する前に、2モードネットワークで実行する必要があります。


4

あなたが引用した記事では、著者は、複雑なネットワークでは、「[the]ノードは[モデル化された]システムの要素を表し、重み付けされたエッジは相互作用の存在とその相対的な強さを識別する」と私は考えています(私が強調) 。

あなたが研究しているネットワークで、私がエコノミストの記事を正しく理解している場合、2人の上院議員が少なくとも100回同様に投票した場合、その間にリンクがあります。したがって、リンクは相互作用をモデル化するのではなく、類似性(上院議員の投票行動間の)をモデル化します。私の経験から、相似ネットワークは相互作用ネットワークほど同じ程度の分布を示しません。また、ネットワークを抽出するときに使用されるしきい値パラメーター(ここでは100)は、次数分布に強い影響を与えることがあります。

さらに、私はエコノミストの記事に重みの言及を見つけることができませんでした。しかし、重みの存在は、アンヘレスセラーノらの研究で説明されている方法では重要なポイントのようです。あなたはあなたの質問で引用します。

これらの2つの観察から、このタイプのネットワークを処理するように設計されていないため、メソッドがこれらのデータに対して正確に実行されない可能性があります。多分あなたは次数分布をチェックすることができます:それは特性値に集中しているか、または不均一ですか?そして、重みはどうですか、何かありますか?


ソースWebサイトから自分でデータを複製したため、重みを含め、任意のカットオフしきい値を適用しませんでした。したがって、バックボーンメソッドを適用したデータは、これらの問題の影響を受けていないはずです。次数分布をチェックするのは良い考えです-確認する必要があります!
Randy Olson
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.