機械学習の分類/回帰タスクには、いくつかの古典的なデータセットがあります。最も人気のあるものは:
- アイリスフラワーデータセット ;
- タイタニックデータセット ;
- モータートレンドカー ;
- 等
しかし、誰もがネットワーク分析/グラフ理論のための同様のデータセットを知っていますか?より具体的- 比較/評価/学習のためのゴールド標準データセットを探しています:
- 中心性対策;
- ネットワーククラスタリングアルゴリズム。
公開されているネットワークやグラフの膨大なリストは必要ありませんが、実際に知っておくべきデータセットがいくつかあります。
編集:
「ゴールドスタンダードデータセット」に正確な機能を提供することは非常に困難ですが、ここではいくつかの考えを示します。実際のクラシックデータセットは次の基準を満たす必要があると思います。
- 記事や教科書の複数の参照;
- 有名なネットワーク分析ソフトウェアパッケージに含まれています。
- 十分な存在時間;
- グラフ分析に関する多くのコースでの使用。
私の関心分野については、頂点のラベル付きクラス、および/または事前計算された(または事前定義された)「オーソリティスコア」(つまり、中心性推定)も必要です。この質問をした後、私は検索を続けました、そしてここにいくつかの適切な例があります:
- Zacharyの空手クラブ:1977年に導入され、1.5K回以上引用され(Google Scholarによる)、頂点にはFaction属性があります(これはクラスタリングに使用できます)。
- Erdos Collaboration Network:残念ながら、このネットワークはデータファイルの形式で見つかりませんが、かなり有名で、誰かが数学者の専門データでネットワークを充実させれば、クラスタリングアルゴリズムのテストにも使用できます。