私が働いている建物の地図を含むPDFファイルがあります。ここ:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
元のソースファイルが失われ、マップ画像を抽出するよう求められました。できれば、それらの上にオーバーレイされたテキストとアイコンはありません。これは厄介なほど難しいことが判明しています。
これまでに、次のGUIプログラムを試しました。
- Adobe Reader:テキストは選択できますが、背景画像は選択できません
- FoxIt PDF Viewer:テキストを選択できますが、背景画像は選択できません
- Ubuntu 10.10のXPDF:mesはテキストを選択できますが、背景画像は選択できません
また、次のコマンドラインプログラム:
- pdfimages:バスルームを示すアイコンを抽出しますが、背景画像は抽出しません
- pdftohtml:pdfimagesと同じですが、マークアップが不十分なHTMLドキュメントになります
- pdfextract:pdfimagesと同じ
- 変換:画像は正常に保存されましたが、テキストが焼き付けられています
テキストエディターで手動でPDFを開き、ストリームオブジェクトを新しいファイルに貼り付け、.jpg、.png、または.bmp拡張子を付けて保存することで、ストリームオブジェクトを抽出しようとしました(それぞれ順に)。PDFファイルの内部構造について私がほとんど知らないことを考えると、これが機能しなかったのは当然のことです。
それで...テキストとアイコンを取得せずにこのものから地図画像を取得する方法はありますか?
qpdf
バイナリ部分をできるだけASCIIに変換するために使用します。(2)私は(トグルすることにより、容易かつ外部参照テーブルに損傷を与えることなく達成することができ、画面上やプリントアウトに表示したくないことをすべてのテキストを非表示にするには、テキストエディタを使用見えないフラグ)。(3)Ghostscriptを使用して結果を再蒸留し、そのサイズをできるだけ小さくします。-残念ながら、手順を説明するためにファイルをダウンロードすることはできません...