cuneiform -l eng -fテキスト-o outocr.txt input.pdf
上記のコマンドをターミナルで実行すると、私のPDFタイトルページのテキストのみがoutocr.txtファイルに出力されます。 120ページのPDFのすべてのテキストを認識させるにはどうすればいいですか。私はFedora Linux 25(x86_64)を使用しています。
cuneiform -l eng -fテキスト-o outocr.txt input.pdf
上記のコマンドをターミナルで実行すると、私のPDFタイトルページのテキストのみがoutocr.txtファイルに出力されます。 120ページのPDFのすべてのテキストを認識させるにはどうすればいいですか。私はFedora Linux 25(x86_64)を使用しています。
回答:
この記事では、多数の個々のページを読み、複数ページのPDFを作成するためのスクリプトの例を紹介します。 Cuneiform自体は複数ページの文書を作成しません。 LinuxでPDFからOCRを使用してテキストを抽出する方法