大きな本をデジタル形式に変換するための実用的なOCRソリューション？

12

私は先週末、祖父母の場所で終わりました。私の祖母は、1630年頃にさかのぼる家族の歴史に関するこの巨大な本（約1400ページ）を引き出しました。私は巨大なオタクです。すべての情報をデータベースに保存し、Webから入手できるようにするのは賢明だと思いました。私はすべてのWebプログラミングと正規表現を処理できますが、わからないことは、テキストを本からコンピューターに転送する最良の方法です。

私が行った小さな研究から、ある種のOCRが必要になることを知っています。私の選択肢は次のように思えます。

カメラですべてのページの写真を撮り、OCRソフトウェアで写真を処理する
スキャナーを使用して各ページをスキャンし、OCRソフトウェアで処理する
このような、ある種のハンドヘルドデバイスを使用します。

この問題に取り組むための最良の方法についてのアイデアはありますか？私が知っている限り、それは置き換えられないので、私は本を破壊したくありません。大きな本をスキャンするのはこれがたぶん唯一の時間なので、どのような種類のデバイスでも250ドル以上は使いたくないと思います。ここでは手動での作業は気にしませんが（これにはおそらく数か月かかると思います）、可能な限り最も効率的な方法を見つけたいと思います。

この本についての注意：それはわずか20年前なので、かなり良い形になっています。モノクロで、ページが黄色になっていません。しかし、それは非常に大きいため、テキストがバインディングに近づくと影ができるのではないかと心配しています。

ocr

1

ちなみに、本が20年前のもので、情報が1600年代に遡る場合、元の資料はどこにありますか？キャプチャするのもいいかもしれません！

— クレイグ

ええ、それもクールです。元の著者を追跡できるかどうかを確認します。

8

Lifehacker でこれを見つけたのはかなり前のことで、それ以来、私のトップDIYプロジェクトの1つとなっています。

ここに画像の説明を入力してください

iPhoneを任意のカメラまたは画像に置き換えると、MS OfficeなどのソフトウェアでOCRを実行できる高解像度のjpegのスタックが得られます。;）

安いです。効果的。DIY。このようなアイデアに勝るものはありません。

編集：コメントは、影、ページのカーリングなどに関するいくつかのポイントを提起しました。文字通り写真コピーされたライブラリーテキストを持っている人のために非常に簡単に解決されました。

複数の光源を追加して本を照らし、影を取り除きます。

真ん中の装丁に向かってカールしないように、ページに対して90度で本を傾けます。また、バインディングを保持します。

例を挙げて自分で設定できるかどうかを確認します。

EDIT 2：本の持ち方のサンプルをアップロードし、左からの光源にも注目してください。

ここに画像の説明を入力してください

— カリバン
ソース

かっこいいな！私はそれ:)行うことがしたい

— アレックス・

ただし、それを行うには本物のカメラと高品質が必要です。そうしないと、特に非常に古い本で利用できない画像で終わることになります。だから安いとは程遠い。

— グヌーピ

とても興味深い。おそらくページ間にある影を考慮すると、これが本でどのように機能するのだろうか。

ページが曲がっていたり、影がある場合、OCRソフトウェアが文字を認識できないことがあります。

— アレックス

複数の光源を追加して本を照らし、影を取り除きます。ブックを90度傾けて、ページが中央の装丁の方向にカールしないようにします。それは単純な常識です。私たちは大学で図書館のテキストの写真を撮るときにいつもそうしています。

— カリバン

3

私の知る限り、ABBYYは最高のOCRソフトウェアを作成しますが、無料ではありません。ABBYY FineReaderの試用版を使用してみてください。おそらく役立つでしょう。

— アレックス
ソース

1

何とかして画像をキャプチャする必要があります。これを行うためのさまざまなサービスが存在します。OCRはまだ完全ではないので、校正するテキストの内容に精通している人も必要です。特に手書きのものなら何でも。

他の人があなたの質問をここで議論しています：http : //ask.metafilter.com/92506/scan-my-books

一部の企業はあなたのためにこれを行います。 http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 のhttp：// WWW。 ristech.ca/product.html

いくつかの無料ソフトウェア：http : //download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— ニックセントウスキー
ソース

1

このようなあなたとあなたの家族のプロジェクトにとって大規模で重要なもののために、DIY Book Scannerが行くかもしれません、いくつかのデザインはスポーツページターナーです-http : //www.diybookscanner.org/ これはネイティブでOCRをサポートしていません、しかし1時間に600ページを撮影し、事実http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/の後にOCRで実行できます

— Xaq Fixx
ソース

0

近くの大学にブックスキャナー全体があるかどうかを確認してから、学生に本を読んでもらうように頼みます。

— クリス・ナバ
ソース

0

クリスが述べたように、本のスキャン用に装備されたフラットベッドスキャナーまたはブックスキャナー全体をお勧めします。

可能であれば、ドキュメント管理システムに関しては、業界標準であるTIFF形式に画像をコンパイルしてください。

OCRを行うには、Googleが書籍プロジェクトで説明したフレームワークであるtesseract OCRをお勧めします。

— グレッグビューラー
ソース

0

プロセスを自動化するのは魅力的ですが、この特定の本は個人的な問題であるため、より多くの時間と作業を投資したい場合があります。OCRが一括処理を行いますが、ページごとに校正し、オリジナルと比較する必要があります。作者の間違いは取引の一部であり、修正しないでください（気が向いた場合は脚注を作成してください）。時間をかけて、自分にプレッシャーをかけないでください。本のスキャンはロバの仕事ですが、徹底が払われ、あなたの家族の慢性の素晴らしいデジタルコピーになります。頑張ってください:)

実際、それは本当に良い点です。本のオリジナルのコンテンツをデジタルで利用可能にすることは考えていませんでしたが、持っている限り、.pdfバージョンを作成することもできます。

PDFを選ぶ理由 HTMLを考えてください。元のスキャンを保持することもできますが、大量のデータが必要になります。

私のアイデアは、すべての出生/血統情報をデータベースに保存することでした。そのため、ナビゲーション/検索/更新を簡単にするWebフロントエンドを作成できました。私はそのバージョンからのタイプミスを解決する予定です。また、私はそこにいないいとこがいくつかあり、それらを追加するといいでしょう。pdfを考えていたのは、元のページ番号などがそのままの元の本のように見えるものがあればいいからです。そのバージョンは私が放っておき、本からのすべてのタイプミスを保持します。

0

職場では、約250ドルの Plustek Optibook 3600ブックスキャナーを使用しています。基本的には標準のフラットベッドスキャナーですが、ガラス板がスキャナーの端までまっすぐに向かっており、ブックページをプレート上に平らに置くことができます。これにより、背骨の影がなくなり、本の損傷を防ぎます。

ここに画像の説明を入力してください

— pelms
ソース

本当に厚い本でそれを使ってみたことがありますか？厚さ3インチのようなものです。

ページが適度に平らな状態で90度開くことができれば、問題ありません。テーブルの端で試してください。

— pelms