Linux用のScan-to-PDFソフトウェア?


18

Fujitsu ScanSnap S500ドキュメントスキャナーを使用して、紙のドキュメントをスキャンして検索可能なPDFにするワークフローがあります。私はバンドルされたソフトウェアの大ファンではありませんが、使い方はとても簡単です。紙の束を一番上に置き、緑色のボタンを押すと、検索可能なPDFが表示されます。

さて、Linux(Ubuntu 10.10)で同様のことをしたいと思います。スキャナーはそのまま使用できます。

私が見てきたgscan2pdfXSane

  • XSane 強力に見えますが、ワークフローソリューションとしてはあまり適していません。
  • gscan2pdf 「ボタンを押してPDFを取得する」という理想に少し近づいていますが、100%ではありません。

推奨できる他のソフトウェア(無料またはその他)


私は、PDF-カップを使用しますが、それは検索可能なテキスト、画像ではありません
RobotHumans

1
gscan2pdfで「100%存在しない」とは何ですか?
digitxp

@digitxp私は、あらゆる製品の問題、好きなもの、嫌いなものの洗濯物リストで質問を散らかしたくありませんでした。しかし、あなたが尋ねたので、gscan2pdf私は「アンペーパー」の奇妙なアーティファクトを持っていたので、OCRはほとんど使用できず(一部のエンジンは他のものよりも優れていました)、全体的には元のソリューションほど合理化されていませんでした。とにかく、私の質問の本質は、私がさまざまな解決策を試して、私に最適なものを見ることができるように、他に何があるかを見ることです。
NPE

@digitxp前回のコメントを読み直したところ、かなり否定的に聞こえました。それは意図ではありませんでした。gscan2pdf実際に私が探しているものにかなり近いですが、元のソリューションと比較して悲しいことに欠けている領域があります。
NPE

回答:


18

今年初めにこれを調査したときに私が見つけたいくつかの事柄を以下に示します。申し訳ありませんが、評価が限られているため、複数のハイパーリンクを投稿することはできません。そのため、リンクについてはGoogleに連絡する必要があります。

gscan2pdf

バックエンドにさまざまなOCRエンジンを使用できる非常に優れたGUIシステム。これはおそらく、ワンタッチソリューション(およびdigitxpで既に述べた)を満たすでしょう。

Tesseract OCRエンジン

gscan2pdfで使用できます。

オクロパス

オクロパスは、徹底的なトレーニングなしではテキストを認識しなかったため、それほど遠くはありませんでした。それはおそらく本には本当に良いでしょうが、請求書などでは私にはうまくいきませんでした。YMMV。

楔形文字

私はCuneiformで最高の成功を収め、次のワークフローのようなスクリプトコマンドを使用して検索可能なPDFを作成できました。

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

exactimageパッケージもインストールする必要があります。

OCR'ing PDFのさまざまなオープンソースプロジェクトでは、Cuniformhocr2pdfも使用しています。

  • WatchOCR
  • アーキビスタ

あなたが見つけたことを教えてください!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.