主な答え
私は仕事の同じ種類に興味を持っているので(OCRに、必ずしもではないがPDFファイルを、それにそれらを変換するためのDjVuと、その後、私はのDPIを推測するために必要なので、(OCR彼らは)、私が欠けているこの質問と回答を見つけましたピクセル数の画像を使用しpdfinfo
、PDF内の画像の密度などが異なることは言うまでもありませんが、出力またはその他のトリックとしてサイズを使用します。
さらに多くの研究を重ねた結果、次のようにpdfimages
(poppler-utilsパッケージから)使用できることがわかりました。
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
お知らせx-ppi
およびy-ppi
上記のリストで。また、画像がPDFに保存されている形式もリストします。これはクールです(JBIG2、場合によってはJPEG2000など)。
注:deptest.pdf
上記で使用したpdfsizeopt
ファイルは、のリポジトリから入手できます。
実際のアクション
その後、単純に画像pdfimages
自体を抽出するか、pdftoppm
(からもpoppler-utils
)使用して、ページ全体を好きな多くの形式でレンダリングできます(たとえば、tiff、でスキャンする場合tesseract
)。
次のようなものを使用できます(imgs
イメージを置く場所という名前のディレクトリを作成したと仮定します)。
pdfimages -png Faraway-PRA.pdf imgs/prefix
ファイルは、次のように、imgs
名前がで始まるディレクトリ内に作成されますprefix
。
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
それから、あなたは、あなたが好きなようなツールに合うと思う手術を行うことができscantailor
ます。
より直接的な答え
PDFファイルをOCRするだけの場合は、十分に管理され、既にパッケージ化されているプログラム、つまりocrmypdfを使用できます。
x-ppi
(DPIのx解像度)およびy-ppi
(DPIのy解像度)はpdfimages
、たとえばUbuntu 14.04に付属している古いバージョンでは表示されないことに注意してください。ただし、Ubuntu 18.04で利用可能なものには、これらの値が含まれています。pdfimages -v
私のUbuntu 18.04のマシンショーに私はバージョン0.62.0、持っていないこれらの機能を持っています。