ネットワーク分析のクラシックデータセット


10

機械学習の分類/回帰タスクには、いくつかの古典的なデータセットがあります。最も人気のあるものは:

しかし、誰もがネットワーク分析/グラフ理論のための同様のデータセットを知っていますか?より具体的- 比較/評価/学習のためのゴールド標準データセットを探しています:

  1. 中心性対策;
  2. ネットワーククラスタリングアルゴリズム。

公開されているネットワークやグラフの膨大なリストは必要ありませんが、実際に知っておくべきデータセットがいくつかあります。

編集:

「ゴールドスタンダードデータセット」に正確な機能を提供することは非常に困難ですが、ここではいくつかの考えを示します。実際のクラシックデータセットは次の基準を満たす必要があると思います。

  • 記事や教科書の複数の参照;
  • 有名なネットワーク分析ソフトウェアパッケージに含まれています。
  • 十分な存在時間;
  • グラフ分析に関する多くのコースでの使用。

私の関心分野については、頂点のラベル付きクラス、および/または事前計算された(または事前定義された)「オーソリティスコア」(つまり、中心性推定)も必要です。この質問をした後、私は検索を続けました、そしてここにいくつかの適切な例があります:

  • Zacharyの空手クラブ:1977年に導入され、1.5K回以上引用され(Google Scholarによる)、頂点にはFaction属性があります(これはクラスタリングに使用できます)。
  • Erdos Collaboration Network:残念ながら、このネットワークはデータファイルの形式で見つかりませんが、かなり有名で、誰かが数学者の専門データでネットワークを充実させれば、クラスタリングアルゴリズムのテストにも使用できます。

1
「ゴールドスタンダードデータセット」をより客観的な方法で定義することで、この質問を改善できると思います。「知っておくべきこと」は何ですか?それは多くの教科書で参照されるべきですか?多くの公開モデルで使用されていますか?さもなければ、答えは主観的であり、時間の経過とともに変化します。ここで悪い組み合わせ。
エア

回答:


5

あなたが探しているものはKONECTで見つけることができます(私がこれを書いているのでウェブサイトはダウンしていますが、すぐに修正されるでしょう!)。これは、ネットワーク分析のためのほぼ最も包括的なデータ収集です。しかし、問題はどちらを使用するのがより標準的かということです。

さて、ザカリーの空手クラブを除いて明確な答えはありません!

Community Detectionアルゴリズムで文献レビューを行うと、ほとんどすべての優れた論文が異なるネットワークを使用していることがわかります。私の提案は、グラフのベンチマークのためにAndrea LancichinettiとSanto Fortunatoが行ったことを通り抜けることです。彼らはいくつかのベンチマークグラフ生成アルゴリズム、例えばこれを提案しました。

それが役に立てば幸い :)


あなたはウェイバックマシンを経由して、これを見つけることができ、そのあなたの親友のweb.archive.org/web/20150402165739/http://konect.uni-koblenz.de/...
アルバート・


1

私が知っている唯一のことは、Neo4jなどのグラフデータベースのベンチマークデータです。

次のようなリンクを見つけることができます:http : //istc-bigdata.org/index.php/benchmarking-graph-databases/

ネットワーク分析とグラフ理論をテストするためのデータを見つけることができます。

さらに、Twitter / FacebookのAPIを使って自分のデータを収集することもできます。これは、探しているデータが見つからない場合の提案でもあります。


ありがとう、しかしそれは私が探しているものではありません。詳細については、更新を参照してください。
ソバッハ2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.