抄録をクロールするためのAPIはありますか?


13

論文名のリストが非常に長い場合、インターネットまたはデータベースからこれらの論文の要約を取得するにはどうすればよいですか?

紙の名前は「公衆衛生の領域のためのWebマイニングにおけるユーティリティの評価」のようなものです。

誰かが私に解決策を与えることができるAPIを知っていますか?Google学者をクロールしようとしましたが、Googleがクローラーをブロックしました。


2
これには一般的なAPIがあるとは思いません。Academia.edu、出版社のサイトなどのさまざまなサービスをクロールしてみてください。それでも、最初にドキュメントのローカルデータベースを構築し、次に要約の抽出を試す方が簡単です。
Wojciech Walczak

ご回答有難うございます!このためにローカルデータベースを既に構築しています。さまざまなサービスからのクロールの問題は、各Webサイトの解析ルールを作成する必要があることです。
アレックスガオ

では、PDFをTXTに変換してから、正規表現で要約を抽出するのはどうでしょうか。
ヴォイチェフヴァルザック

THX!ただし、契約では、論文の大量ダウンロードは許可されていません。これは頭​​痛の種です。
アレックスガオ

2
このスタックオーバーフロー回答リンクは、私が得ることができる最良の回答を与えると思います。この問題に遭遇した人もこのページを見ることができます。
アレックスガオ

回答:


8

調べてみてください:

タイトルが完全に一致する場合は、おそらく適切な記事が見つかり、そこから残りの情報を入力できます。どちらもダウンロードリンクとbibtexスタイルの出力を提供します。完璧なメタデータを取得するためにおそらくやりたいことは、pdfをダウンロードして解析し(存在する場合)、DOIスタイルの識別子を探すことです。

これを行う場合は、リクエストを適切にレート制限してください。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.