テキスト(ツールに貼り付けるか、.doc / .pdfから読み取る)を自動的にスキャンし、標準形式を使用して引用データを識別することができるソフトウェア(または擬似コード)はありますか?次に、データは構成フィールドに分割され、XML、CSV、またはその他の構造化データ形式でエクスポートされます。私はcb2Bibを見ましたが、ハーバードスタイルの参照から年を抽出することしかできませんでした。これは不十分です。
テキスト(ツールに貼り付けるか、.doc / .pdfから読み取る)を自動的にスキャンし、標準形式を使用して引用データを識別することができるソフトウェア(または擬似コード)はありますか?次に、データは構成フィールドに分割され、XML、CSV、またはその他の構造化データ形式でエクスポートされます。私はcb2Bibを見ましたが、ハーバードスタイルの参照から年を抽出することしかできませんでした。これは不十分です。
回答:
入力テキストからXMLを生成できるこの引用パーサーのリストを見てください。
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit(2012年 8月1日現在のメンテナンスモード)
http:// opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
freeciteを使用すると、curl
次のようにコマンドを使用して引用を送信できます(PHPの場合)。
$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );
現時点(2017)では、これを実装する最もアクティブなオープンソースプロジェクトはAnystyle Parser(最終バージョン07-2016)のようです。Webインターフェース、APIを介して使用するか、RubyGemとしてダウンロードできます。
彼らは、実装がParsCit(最後のバージョン2013?)とFreeCite(最後のコミット2009)に触発されていることをウェブサイトで明示的に述べています。
また、彼らのウェブサイトを形成します:
AnyStyleパーサーは、条件付きランダムフィールドに基づく強力な機械学習ヒューリスティックを使用します。これは、組み込みエディターを使用して全員がトレーニングできます。
これは本当にクールな機能であり、これが最も興味深い実装です(imho)。APIドキュメントで説明されているように、トレーニングは非常に簡単です。手動で修正した結果をいくつか提供し、Anystyle.parser.train
コマンドを実行するだけです。ParsCitとFreeCiteもこれをサポートしているかどうかはわかりませんが、サポートしていない場合、これは私にとって大きな機能の違いのようです。
Regex BuddyやExpressoなどのツールを試してください。
プログラマーでない場合、正規表現は少々恐ろしいかもしれませんが、特に上記のような適切なツールを使用すれば、それほど難しくありません。
引用を抽出するために正規表現を使用している人の例を次に示します。
メンデリーはこれを行うことができるはずです。PDFをインポートしてから、メタデータをBibTeX、RIS、およびEndNote XMLにエクスポートできます。無料でダウンロードでき、クロスプラットフォームです。
編集:いくつかのドキュメントでこれをテストしました。PDFのインポートは、正しくフォーマットされた参照に対してうまく機能するようです。LaTeXを使用して作成したドキュメントの場合、著者とのすべての参照は「Smith、J.」という形式です。または「J.スミス」などが正常にインポートされました。作成者が会社(単一の単語)である場合、または参照が不完全な場合、同様に機能しません。抽出された参照は簡単に編集し、BibTeXなどにエクスポートできます。
ウェストローのプログラムが法的引用のためにそれを行うのを見てきましたが、おそらくあなたが探しているものではないでしょう。 Reference Managerはアカデミックな形式でそのようなことをするかもしれませんが、私はそれを使用したことがありません。
http://www.crossref.org/guestquery/#stqsearchを試して ください
これは、参照テキストを自動的に解析することができ、オンライン記事へのリンクを提供します。
Zoteroは、Firefoxのプラグインであり、Webコンテンツに対してこれを行います。ドキュメント/ PDF用の同様のツールがあるかどうかわからない
これはおそらく@Abhinavへのコメントとして属しますが、zoteroは間違いなく構造化されたデータのみを処理します。
面白いハックは、お気に入りのデータベースで各引用を検索クエリとして使用するプログラムを作成し、zoteroなどを使用してref情報を生成することです。citeUlikeなどのサービスから構造化された情報をダウンロードすることもできます。あなたがそのようなことをすることになったら教えてください!(もしそうなら、githubに置いてください;)。