一般公開されているソーシャルネットワークデータセット/ API


26

一般公開されているデータセットのすばらしいリストの拡張として、公開されているソーシャルネットワークデータセット/クロールAPIのリストがあるかどうかを知りたいです。データセット/ APIへのリンクと一緒に、利用可能なデータの特性が追加されていれば、非常に便利です。そのような情報は次のとおりである必要があります。

  • ソーシャルネットワークの名前。
  • 提供するユーザー情報の種類(投稿、プロフィール、友情ネットワークなど);
  • APIを介してコンテンツのクロールを許可するかどうか(およびレート:10 / min、1k / month、...);
  • データセット全体のスナップショットを単に提供するかどうか。

追加する提案やさらなる特性は大歓迎です。

回答:


20

ソーシャルネットワークAPIに関するいくつかの言葉。約1年前、私は研究者向けの人気のあるソーシャルネットワークのAPIのレビューを書きました。残念ながら、それはロシア語です。概要は次のとおりです。

Twitterhttps://dev.twitter.com/docs/api/1.1

  • ツイート/テキストおよびユーザーに関するほぼすべてのデータが利用可能です。
  • 社会人口学的データの欠如;
  • 優れたストリーミングAPI:リアルタイムのテキスト処理に役立ちます。
  • プログラミング言語用の多くのラッパー。
  • ネットワーク構造(接続)を取得することは可能ですが、時間がかかります(1分間に1つの要求)。

Facebookhttps://developers.facebook.com/docs/reference/api/

  • レート制限:1秒あたり約1リクエスト。
  • 十分に文書化され、サンドボックスが存在します。
  • FQL(SQLライク)および«通常のRest»Graph API。
  • 友情データと社会人口学的特徴が存在する;
  • 多くのデータはイベントの範囲を超えています:友人と友人の友人データのみが多かれ少なかれ完全であり、ランダムユーザーについてはほとんど調査できません。
  • 奇妙なAPIバグがいくつかあり、誰も気にしていないように見えます(たとえば、FQLを介して利用できるがGraph APIの同義語を介して利用できない機能など)。

Instagramhttp://instagram.com/developer/

  • レート制限:1時間あたり5000リクエスト。
  • リアルタイムAPI(TwitterのストリーミングAPIに似ていますが、写真付き)-それへの接続には少し注意が必要です。コールバックが使用されます。
  • 社会人口学的データの欠如;
  • 写真、利用可能なフィルターデータ;
  • 予期しない欠陥(例:投稿/写真にコメントを150件しか収集できない)。

Foursquarehttps://developer.foursquare.com/overview/

  • レート制限:1時間あたり5000リクエスト。
  • 地球社会データの王国:)
  • プライバシーの問題のため、研究からかなり閉鎖されました。チェックインデータを収集するには、4sq、bit.ly、twitterのAPIを同時に使用する複合パーサーを構築する必要があります。
  • 再び:社会人口学的データの欠如。

Google+https://developers.google.com/+/api/latest/

  • 1秒あたり約5リクエスト(検証を試行);
  • 主な方法:活動と人々。
  • Facebookのように、ランダムなユーザーの個人データの多くは隠されています。
  • ユーザー接続データの不足。

そして非競争:私はロシアの読者のためにソーシャルネットワークをレビューしました、そしてここで一番のネットワークはvk.comです。多くの言語に翻訳されていますが、ロシアや他のCIS諸国でのみ人気があります。APIドキュメントは、リンクされていますhttp://vk.com/dev/。そして、私の観点から、それは自作のソーシャルメディア研究のための最良の選択です。少なくとも、ロシアでは。それが理由です:

  • レート制限:1秒あたり3リクエスト。
  • 利用可能な公開テキストおよびメディアデータ。
  • 利用可能な社会人口統計データ:ランダムユーザーの可用性レベルは約60〜70%です。
  • ユーザー間の接続も利用できます。ランダムなユーザーのほぼすべての友情データが利用できます。
  • いくつかの特別な方法:たとえば、正確なユーザーのオンライン/オフラインステータスをリアルタイムで取得する方法があり、視聴者のスケジュールを作成できます。

1
素晴らしさ!私は実際にこのようなものが多くの答えに分解されることを期待していました、そして、あなたは全体を運んで来ました:D答えてくれてありがとう。良くやった!:)
ルーベンス14年

1
私は、LinkedIn、YouTube、Secretのスコープを残しました。たぶん他の地域ネットワーク(QQ?)。そして、それらについての情報を入手できてうれしいです。
sobach

8

それ自体はソーシャルネットワークではありませんが、Stackexchangeはデータベースダンプ全体を定期的に公開しています。

どのユーザーがお互いに尋ねたり答えたりするかを分析することで、いくつかのソーシャル情報を抽出できます。良い点の1つは、投稿にタグが付けられているため、サブコミュニティを簡単に分析できることです。


6

一般公開されているソーシャルネットワークデータセットの良いリストは、Stanford Network Analysis ProjectのWebサイトにあります。

SNAPデータセット

このサイトには、インターネットソーシャルネットワークデータ(Facebook、Twitter、Google Plus)、学術雑誌の引用ネットワーク、Amazonからの共同購入ネットワーク、その他いくつかの種類のネットワークが含まれています。これらは有向グラフ、無向グラフ、および二部グラフであり、すべてのデータセットは圧縮形式でダウンロードできるスナップショットです。


5

ドイツの例:LinkedInに似ているがドイツ語圏に限定されたサイトをXingする。

開発者セントラルへのリンク:https : //dev.xing.com/overview

以下へのアクセスを提供します:ユーザープロファイル、ユーザー間の会話(ユーザー自体に限定)、求人広告、連絡先と連絡先の連絡先、ネットワークからのニュース、一部の位置情報API。

はい、APIがありますが、レートに関する情報は見つかりませんでした。しかし、一部の情報はユーザーの同意に限定されているように思えます。


4

Network Repository(http://networkrepository.com)には、大量のソーシャルネットワーク、Webグラフ、バイオネットワーク、ブレインネットワークなどがあります。何よりも、さまざまなソーシャルネットワークを比較/探索するためのインタラクティブな視覚分析ツールもあります。


2

ここにそのようなリンクの小さなコレクションがあります。それらの多くはソーシャルグラフです。


私はこの言及を投稿するためどうもありがとうございましたが、私はソーシャルネットワークのために公に利用可能なデータセット/ APIを指す、ためにここに答えを期待していたandalsoポストのダウンロード速度のいずれか(例えば、ソースによって提供されるものを説明、またはどのような種類の情報ユーザーについて)。あなたの答えがそうであるように、私たちが持っている公的に利用可能なデータセットのリストに大歓迎です。
ルーベンス14年

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.