私は先週末、祖父母の場所で終わりました。私の祖母は、1630年頃にさかのぼる家族の歴史に関するこの巨大な本(約1400ページ)を引き出しました。私は巨大なオタクです。すべての情報をデータベースに保存し、Webから入手できるようにするのは賢明だと思いました。私はすべてのWebプログラミングと正規表現を処理できますが、わからないことは、テキストを本からコンピューターに転送する最良の方法です。
私が行った小さな研究から、ある種のOCRが必要になることを知っています。私の選択肢は次のように思えます。
- カメラですべてのページの写真を撮り、OCRソフトウェアで写真を処理する
- スキャナーを使用して各ページをスキャンし、OCRソフトウェアで処理する
- このような、ある種のハンドヘルドデバイスを使用します。
この問題に取り組むための最良の方法についてのアイデアはありますか?私が知っている限り、それは置き換えられないので、私は本を破壊したくありません。大きな本をスキャンするのはこれがたぶん唯一の時間なので、どのような種類のデバイスでも250ドル以上は使いたくないと思います。ここでは手動での作業は気にしませんが(これにはおそらく数か月かかると思います)、可能な限り最も効率的な方法を見つけたいと思います。
この本についての注意:それはわずか20年前なので、かなり良い形になっています。モノクロで、ページが黄色になっていません。しかし、それは非常に大きいため、テキストがバインディングに近づくと影ができるのではないかと心配しています。