LinkedIn Webスクレイピング


11

LinkedIn APIに接続するための新しいRパッケージを最近発見しました。残念ながら、LinkedIn APIはそもそもかなり制限されているようです。たとえば、企業の基本データしか取得できず、これは個人のデータから切り離されています。特定の会社のすべての従業員に関するデータを取得したいのですが、これはサイトで手動で行うことができますが、APIからはできません。

import.io、LinkedInのページネーションを認識していれば完璧です(ページの終わりを参照)。

LinkedInの現在のフォーマットに適用可能なWebスクレイピングツールやテクニック、またはより柔軟な分析を実行するためにAPIを曲げる方法を知っている人はいますか?できればRまたはWebベースですが、他のアプローチも可能です。


2
LinkedInのWebスクレイピングは、利用規約に違反しています。LinkedInの「実施」および「禁止」を参照してください- 禁止:「手動または自動化されたソフトウェア、デバイス、スクリプトロボット、その他の手段またはプロセスを使用して、サービスまたは「スクレイピング」、「クロール」、「スパイダー」にアクセスします。関連データまたは情報;」
ブライアンスピアリング

回答:



3

Scrapyは、さまざまなサイトをすばやくスクレイピングし、コード構造を改善するのに役立つ優れたPythonライブラリです。動的なJSコンテンツ構築を使用できるため、すべてのサイトがクラシックツールで解析できるわけではありません。このタスクでは、Seleniumを使用することをお勧めします(これはWebサイトのテストフレームワークですが、優れたWebスクレイピングツールでもあります)。このライブラリで利用できるPythonラッパーもあります。Googleでは、Scrapy内でSeleniumを使用したり、コードを明確に整理したりするのに役立ついくつかのトリックを見つけることができます。また、Scrapyライブラリ用のいくつかの優れたツールを使用できます。

Linkedinにとって、Seleniumは従来のツールよりも優れたスクレイパーになると思います。多くのJavaScriptと動的コンテンツがあります。また、アカウントで認証を行い、使用可能なすべてのコンテンツを削り取りたい場合は、リクエストurllibなどの単純なライブラリを使用した従来の認証で多くの問題が発生します


1

関連するセクションを選択するために、SelectorGadgetクロムプラグインと組み合わせてrvestを使用するのが好きです。

私はrvestを使用し、小さなスクリプトを作成して、次の方法でフォーラムをページ分割しました。

  1. 「Page n Of m」オブジェクトを探す
  2. mを抽出
  3. ページ構造に基づいて、1からmまでのリンクのリストを作成します(例:www.sample.com/page1)
  4. リンクの完全なリストを通じてスクレーパーを反復する

0

Pythonを知っていれば、beautifulsoupも使います。javascript / JQueryをコーディングする場合(およびnode.jsに精通している場合)、CoffeeScriptをチェックアウトすることをお勧めします(チュートリアルを確認してください)。これは、Webページをスクレイピングするためにすでに何度か使用しています。


0

lxmlは、Pythonの優れたWebスクラップライブラリです。Beautiful Soupはlxmlのラッパーです。したがって、lxmlはスクレイピーで美しいスープよりも速く、学習曲線がはるかに簡単です。

これは、個人のプロジェクト用に私が作成したスクレイパーの例で、Webページを反復処理できます。


0

BeautifulSoupはLinkedInでは機能しません。Scrappyはポリシーに違反しています。OctoparseはWindows専用です。別の方法はありますか?個人のアカウントの類似人物データを抽出したい。助けてください!


1
これをコメントとして投稿するか、新しい質問を投稿してください
christopherlovell

これは重要な情報ですが、これが答えになるはずの場合は、質問を削除してください。
ピティコス2016年

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.