学術文献の引用テキストの自動解析


18

テキスト(ツールに貼り付けるか、.doc / .pdfから読み取る)を自動的にスキャンし、標準形式を使用して引用データを識別することができるソフトウェア(または擬似コード)はありますか?次に、データは構成フィールドに分割され、XML、CSV、またはその他の構造化データ形式でエクスポートされます。私はcb2Bibを見ましたが、ハーバードスタイルの参照から年を抽出することしかできませんでした。これは不十分です。


テキスト自体をスキャンしますか、それとも参照セクションのみをスキャンしますか?
innaM 2009

単なる参考文献-個人的な出版物を含むドキュメントである可能性があります。
アリステアノック

これがあなたに必要かもしれないかどうかはわかり
Mostafa Elmoghazi

回答:


4

入力テキストからXMLを生成できるこの引用パーサーのリストを見てください。

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit(2012年 8月1日現在のメンテナンスモード)
http:// opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

freeciteを使用すると、curl次のようにコマンドを使用して引用を送信できます(PHPの場合)。

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

別のオプションはgithub.com/inspirehep/refextractです。MLに基づいていませんが、私のテストでは非常にうまく機能しました。
ジョシル

3

現時点(2017)では、これを実装する最もアクティブなオープンソースプロジェクトはAnystyle Parser(最終バージョン07-2016)のようです。Webインターフェース、APIを介して使用するか、RubyGemとしてダウンロードできます。

彼らは、実装がParsCit(最後のバージョン2013?)とFreeCite(最後のコミット2009)に触発されていることをウェブサイトで明示的に述べています。

また、彼らのウェブサイトを形成します:

AnyStyleパーサーは、条件付きランダムフィールドに基づく強力な機械学習ヒューリスティックを使用します。これは、組み込みエディターを使用して全員がトレーニングできます。

これは本当にクールな機能であり、これが最も興味深い実装です(imho)。APIドキュメントで説明されているように、トレーニングは非常に簡単です。手動で修正した結果をいくつか提供し、Anystyle.parser.trainコマンドを実行するだけです。ParsCitとFreeCiteもこれをサポートしているかどうかはわかりませんが、サポートしていない場合、これは私にとって大きな機能の違いのようです。


Anystyle Parserを除き、それらはすべて、現在最も高い投票数の回答に記載されています。実際にそれらを際立たせるものは何ですか?元の質問を考えると、長所と短所は何でしょうか?
セス

ああ、確かに。回答を編集して改善します。それを指摘するためのThx。
Wouter

今は死んでいるようだ。
専門家

1
@ブランドン:ここにHOWTOを投稿しました:github.com/inukshuk/wapiti-ruby/issues/3
Wouter

1
それは素晴らしいですね、ありがとう!ルビーに触れたことがない人として、それは確かに非常に役立ちます。
ブランドン

2

Regex BuddyExpressoなどのツールを試してください。

プログラマーでない場合、正規表現は少々恐ろしいかもしれませんが、特に上記のような適切なツールを使用すれば、それほど難しくありません。

引用を抽出するために正規表現を使用している人の例を次に示します。

引用解析の正規表現


1

メンデリーはこれを行うことができるはずです。PDFをインポートしてから、メタデータをBibTeX、RIS、およびEndNote XMLにエクスポートできます。無料でダウンロードでき、クロスプラットフォームです。

編集:いくつかのドキュメントでこれをテストしました。PDFのインポートは、正しくフォーマットされた参照に対してうまく機能するようです。LaTeXを使用して作成したドキュメントの場合、著者とのすべての参照は「Smith、J.」という形式です。または「J.スミス」などが正常にインポートされました。作成者が会社(単一の単語)である場合、または参照が不完全な場合、同様に機能しません。抽出された参照は簡単に編集し、BibTeXなどにエクスポートできます。


2
「この機能は、十分な価値を提供せずにかなりのリソース(クライアントおよびサーバー側)を消費していたため、Mendeley 0.9.7で削除されました。今後、改善された形で再導入する予定です。」...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…–
アイスマン

1

ウェストローのプログラムが法的引用のためにそれを行うのを見てきましたが、おそらくあなたが探しているものではないでしょう。 Reference Managerはアカデミックな形式でそのようなことをするかもしれませんが、私はそれを使用したことがありません。



0

Zoteroは、Firefoxのプラグインであり、Webコンテンツに対してこれを行います。ドキュメント/ PDF用の同様のツールがあるかどうかわからない


1
これはZoteroの設計どおりではないことを知っていますが、Firefoxに関連データを含むテキストファイルまたはhtmlファイルを指定した場合、Zoteroは参照を認識し、それをZoteroライブラリに追加して、ライブラリ全体を任意の形式に変換します(Zoteroは多くの形式をサポートしています)。ただし、これは多数のファイルにとっては苦痛です。
撮影

ZoteroがOPが要求することをどのように行うかわかりません。インストールしましたが、参照を解析するオプションはないようです。
リッキ

Zoteroは、通常のテキストからではなく、特別にコーディングされたWebサイトからの引用を解析します。
お茶堂

0

これはおそらく@Abhinavへのコメントとして属しますが、zoteroは間違いなく構造化されたデータのみを処理します。

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

面白いハックは、お気に入りのデータベースで各引用を検索クエリとして使用するプログラムを作成し、zoteroなどを使用してref情報を生成することです。citeUlikeなどのサービスから構造化された情報をダウンロードすることもできます。あなたがそのようなことをすることになったら教えてください!(もしそうなら、githubに置いてください;)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.