今日から私はそれを知っています:PDFからのテキスト抽出のための最良のものは、テキスト抽出ツールキットであるTETです。TETはPDFlib.com製品ファミリーの一部です。
PDFlib.comはThomas Merzの会社です。彼の名前がわからない場合は、トーマス・メルツが「PostScript and PDF Bible」の著者です。
TETの最初の化身はライブラリです。そのページのすべての要素に関する位置情報を含め、Budda006が望んだすべてを実行できるはずです。ああ、それはまた、画像を抽出することができます。断片化された画像を再結合します。
pdflib.comは、このテクノロジーの別の形であるAcrobat用TETプラグインも提供しています。そして3番目の具体化はPDFlib TET iFilterです。これは、ユーザーのデスクトップ用のスタンドアロンツールです。これらはどちらも(ビールのように)無料で、非営利の私的目的に使用できます。
そしてそれは本当に強力です。アドビ独自のテキスト抽出よりもはるかに優れています。他のツール(Adobeを含む)がゴミを吐き出すだけのテキストを抽出してくれました。
私はデスクトップスタンドアロンツールをテストしたところ、彼らのWebページでの発言が真実でした。コマンドラインは非常に優れています。ツールが問題なく処理した「問題のある」PDFテストファイルの一部。
これからは、洗練された、困難なPDFテキスト抽出要件すべてに対する私の推奨事項になります。
TETは単に素晴らしいです。テーブルを検出します。テーブル内では、複数の列にまたがるセルを識別します。表の行と各表のセルの内容を個別に識別します。ハイフネーションを非常にうまく処理します。ハイフンを削除し、完全な単語を復元します。非ASCII言語(CJK、アラビア語、ヘブライ語を含む)をサポートしています。合字に遭遇すると、元の文字を復元します...
試してみる。