多くのページを直接スキャンしてPDFファイルにできる、Ubuntuの使いやすいプログラムはありますか?
多くのページを直接スキャンしてPDFファイルにできる、Ubuntuの使いやすいプログラムはありますか?
回答:
シンプルなスキャンユーティリティを持つことのアイデアが良く、開発の後ろにいた、 シンプルスキャン - (アプリケーション‣グラフィックス‣シンプルスキャン)に10.04からデフォルトでインストールスキャンツール。
必要な数のページをスキャンし、保存時にファイル形式としてPDFを選択するだけです。
テキスト認識などの追加機能を提供するもう少し単純なプログラムは、同じくリポジトリ内のgscan2pdfです。
xsane
この質問を見て、控えめに言っても効果的であるとそのインターフェースを特異だと考えるまで、私は使っていました。
この質問を見たら、Ubuntu Lucid / Maverickリポジトリにあるgscan2pdfを探してみました。同じスキャン(libsane)エンジンを使用しますが、UIははるかにGnomeっぽいです。良い時間のために、試してみてください:
sudo apt-get install gscan2pdf
Simple Scanの保存ダイアログで、ファイル名をmyfile.jpgからmyfile.pdfに変更します。
Ubuntu 14.04、シンプルスキャン3.12.1でテスト済み。
これは、ファイルタイプのドロップダウンに「PDF」ではなく「画像」のみが表示されていても機能します。これはUIのバグだと思います。
この機能は次のドキュメントに記載されていHelp > Contents
ます。
[名前を付けて保存]ダイアログボックスで、サポートされているファイルタイプのいずれかを選択するか、[名前]フィールドの拡張子を変更します。
次の形式がサポートされていると書かれています:
興味深い事実:スキャンタイプ(「スキャン」以外のドロップダウン)を「テキスト」に変更すると、デフォルトのファイルタイプはPDFになります。
USBスキャナーからページをスキャンします。tesseractを使用してPDFにOCRします。複数のページを1つのPDFに結合します。使用法:scan2PDF outputfilename number_of_pages
#!/bin/bash
#scan2PDF
#Requires: tesseract 3.03 for OCR to PDF
# scanimage for scanning, I use 1.0.24
# pdfunite to merge multiple PDF into one, I use 0.26.5
#
# Use scanimage -L to get a list of devices.
# e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
# then copy/paste genesys:libusb:006:003 into SCANNER below.
# play with CONTRAST to get good images
DPI=300
TESS_LANG=nor #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003 #My USB scanner
CONTRAST=35 #Contrast to remove paper look
FILENAME=$1 #Agrument 1,filename
PAGES=$2 #Argument 2, number of pages
re='^[0-9]+$' #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi
SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp
if [ -d ${TMP_DIR} ] #Check if it exists a directory already
then
echo Error: The directory ${TMP_DIR} exists.
exit 2
fi
mkdir ${TMP_DIR} #Make and go to temp dir
cd ${TMP_DIR}
echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES} --batch-prompt
echo Starts Tesseract OCR
for file in *.tif #Goes through every tif file in temp dir
do
tesseract $file ${file%.tif} -l ${TESS_LANG} pdf
done
if [ "$PAGES" = "1" ] #How many pages
then
cp out1.pdf ../${FILENAME}.pdf #Only one page, just copy the PDF back
else
for file in *.pdf #More pages, merge the pages into one PDF and copy back
do
pdfuniteargs+=${file}
pdfuniteargs+=" "
done
pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
echo ${FILENAME}.pdf done
rm * #Done, clean up
cd ..
rmdir ${TMP_DIR}
XSANEを使用したい人のために。プログラムで[ヘルプ]> [XSane Doc]からリンクされたセットアップガイドを読むと、非常に強力で直感的です。どの程度できるかを知ることができます。SANEバックエンドが適切に動作していることを確認する価値もあります(Arch固有ではありません):https : //wiki.archlinux.org/index.php/SANE
フィーダーからドキュメントを自動的にスキャンし、XSaneがいつ停止するか(そして早く停止しないか)を知っているかどうかを知りたい場合は、左上に収まるページ数よりも大きい数(スキャン数アイコン)を入力するだけですあなたのフィーダーで。つまり、フィーダーで10ページを使用できる場合は、15を入力します(厚さのばらつきを考慮するため)。両面スキャナーを使用している場合、この数値を2倍にします。
フィーダーがなくなると、「スキャンされたページ:0」という緑色の警告三角形の付いたダイアログボックスが表示されます。これは、フィーダーが空であり、ダイアログを閉じることができることを意味します。 「XSaneの右上にあるファイルはすべてそこにあります。ビューアからファイルを保存することを忘れないでください。今度は、スキャンをもう一度押して、中断したところから続けます。 「マルチページ」を選択した場合、プロジェクトダイアログには完了したすべてのスキャンが表示され、クリックしてマルチページPDFまたはTIFFまたはPostScriptとして保存できます。
HTH、
DC