OK ... pdflatex
ここで欠けている部分だと思います。
OPは、彼は調査したpoppler-utils
と述べたpdftk
。それに加えましょうpdfimages
。これらは、一緒pdflatex
になってソリューションの一部です。
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
上記のコード例でpdfimages
は、の4〜20ページを調べて、target.pdf
すべての画像をで始まる名前のファイルに抽出しますimageroot
。
poppler-utils
提供しますpdftotext
。私-layout
はドキュメントを人間が読めるように保つ素晴らしい仕事をするオプションをお勧めします。
pdftotext -layout $1.pdf $1.txt
ピドサウルスがimagemagick
提供するソリューションに対するOPの反対は、画像に抽出可能なテキストがないことです。私が概説したユーティリティを使用すると、OPにはすべての画像と抽出されたすべてのテキストが含まれ、ページ番号とコンテンツはオプションによって保持されます。OPは、テキストの正しいページを識別し、ディレクティブで終わるファイルにチャックし、ファイル名で置換画像を参照することができます。次に、これで新しい単一ページの.pdfになり、を使用してドキュメントの残りの部分に挿入します。元のページのテキストのどこに画像が存在するかがわかっていれば、画像を正確な場所に配置できます。-layout
.tex
%includegraphics
pdflatex
pdftk
%includegraphics [h]