物理テキストからデジタルテキストへ


9

最初にこの質問の接頭辞を付けましょう。どのStackExchangeサイトがこの質問に最も適しているかわかりませんが、LifeHacksが機能するかもしれないと思いました...

1998年、私の母の家族の側には大家族の再会がありました(私の素晴らしい祖母には10人の子供がいたので、本当に大きな集まりでした)。私の遠い叔父の一人がこの再会のために私たちの家族の歴史について一種の本を書きました、そして私の母は私に本を読んでくれました。それがどれほど大きいか、そしてこの本にどれほどの研究が盛り込まれたか、私には信じられませんでした。私が作成するWebサイトで本全体を取得する方法を見つけて、家族全員と共有し、最終的にはこの薄っぺらな本よりも長く履歴を保存できるようにしたいと考えています。

私が一語一句入力する必要がないことを願って、この300ページの本全体で、ページをスキャンしてデジタルテキストで取得する方法はありますか?もちろん、写真を撮って、その写真を使用してWebサイトを作成することもできますが、実際のテキストとして表示した方が、誰かが家族の名前などを検索したときにGoogle検索でより適切に表示されるので、より有益だと思います。また、家族の誰かが私たちの家族についての研究プロジェクトを行った場合、テキストの一部をコピーして、より簡単に参照することができます。

では、この古い家族向けの本をデジタルテキストに変換する最良の方法を知っている人はいますか?

本のフロントページ

厚みを示す本

回答:


14

Androidスマートフォンと「Googleレンズ」機能を使用してください最近、写真アプリとカメラの写真レビュースクリプトに追加されました。

Googleレンズを介したOCRは、これまでに使用したどのOCRソフトウェアをも超えて、驚くほど正確です。

以下は、安価な(100 USD)Nokia 3を使用した手順の概要を示すいくつかのスクリーンショットです。愛するNexus 4がゴーストを放棄して以来、私が使用したことのある最高の電話です。

1976年に印刷されたギリシャ語の民族学の本のOCRスキャンのサンプルを詳しく説明します。スキャンのために分解することはあえてせず、文字密度と書体は似ているようです。

私はこの元の写真を理想的な照明条件ではなく、まあまあの電話カメラのすべての自動設定を使用して撮影しました。結果を向上させる特別な写真テクニックやフィクスチャーは使用していませんでした。本のページ。(テキストがフォーカスされていることを確認してください。OCRはぼやけたオフフォーカステキストを解読しません)

ここに画像の説明を入力してください

写真を撮った後のプレビューから、またはGoogleフォトアプリを使用して写真自体をクリックして、Googleレンズアイコンをクリックします。

ここに画像の説明を入力してください

これが-Skynet-です。つまり^M^M^M^M^M^MGoogleレンズが魔法のスキャンを行っています(ドットは少し気味が悪いですが、GoogleのAIがそのことを実行していることを通知するために何かをしなければなりませんでした

ここに画像の説明を入力してください

画像がスキャンされると、Googleレンズが画像上で見つけたテキスト領域の輪郭がはっきりし、テキストが画面の下半分にすでに抽出されています。一部の領域だけを必要とし、他の領域を必要としない場合は、選択をタッチして、それらをアクティブ化/非アクティブ化します。

抽出されたテキストをタッチすると、クリップボードに配置され、電話のどこにでもコピー/貼り付けできるようになります。

ここに画像の説明を入力してください

その後、テキストをGoogleドキュメントドキュメントに貼り付けます。そこで、次のことを実行できます。-すぐに、またはPCで間違いを修正します。-ドキュメントを心ゆくまで共有します。-編集内容をライブで更新するWebページとして公開します。--プレーンテキスト、-ワードドキュメントにエクスポートします。 、-オープンオフィスドキュメント、- リフローテキスト付きの互換性のあるepub電子ブック、または-古き良き非DRMd PDF

これはおそらく、可能な限り幅広い出力の選択肢を備えた、公開への最短ルートであると主張できます。

すべてを単一のデバイス(適切なアプリがインストールされたAndroidフォン)から実行でき、基本的に無料で高精度のレートですぐに使用できます。

これはフラグメントを貼り付けたGoogleドキュメントです
ここに画像の説明を入力してください

これがGoogleドキュメントのURL共有です。お気軽にコメントしてください。また、誰かがリモートで同時にドキュメントを編集するのを手伝ってもらうこともできます。

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

最後に、リンクされたソースとして前述のドキュメントを使用して公開されたGoogleサイトのWebサイトです。

https://sites.google.com/h-lo.me/ocrsample

これは、https、デスクトップ、モバイル対応で、好みに応じて異なりますが、通常は痛みはありません。総作業時間15分でコーディングもまったく問題ありません。


そこ一点の改良が残っており、それが作成することです適切な段落を Googleのレンズは、それが自分の段落のすべての行を作成し、使用する場合は、これが問題になり、抽出されたテキストのすべての行の後にハードリターンを挿入するので、Googleの文書に目次などのGoogleドキュメントの機能、またはドキュメントを Kindle 互換のe-pub電子ブックにエクスポートするとき(リフローテキストをめちゃくちゃにする)

すべての行の先頭でバックスペースキーを押すことで、必要に応じてすべての行に参加できます。または、これをスクリプトで自動化することもできます。

そこで、このプロセスを自動化するためにまもなく公開するアプリスクリプトアドオンを作成しています。完了したらここでお知らせします。


素晴らしいディテール。私はこの無料のソリューションが好きです。ありがとう!
カイルブリデンスティン2018年

どういたしまして!あなたはすでにあなたが必要とするすべてを持っているかもしれません!:)
hlecuanda 2018年

厚い本の場合、これは非常に手間がかかるアプローチです。手動で各ページをめくって写真を撮る必要があります。
ホッブズ2018

6

これは段階的に行うことができます。ページスキャンとしてすべてをオンラインにして、可能な限り更新します。cerlox™プラスチック製コームビンディングは、バラバラにして、ビンディングに戻すのが簡単です。

印刷は同じサイズの通常のセリフタイプのように見えるため、光学式文字認識ソフトウェアを使用してスキャンをデジタル化できます。OCRはドラフトテキストファイルを提供し、校正してWebサイトで公開して最終的な形式にすることができます。

同時に、写真やその他の画像素材を整理できます。

これは、プロジェクトの時間/リソースが利用可能になったときに行うことができます。


前の回答と同様ですが、詳細はありません。
Trajan Espelien

@TrajanEspelien以前の答えは?タイムスタンプを確認してください。答えは、最初に、ヒエクアンダ提出の2日前でした。:)
Stan

ええ、でも他の答えほど詳細はありません。だから私はこれについて他の答えを受け入れました。最初に来るサーバーではありません。それが最良の答えです。
カイルブリデンスティーン

@KyleBridenstine冗談じゃない!私もヒエクアンダに賛成しました。それは素晴らしい答えでした。ちなみに、Androidフォンを持っていない、またはGlassにアクセスできない場合はどうなりますか?私は質問に対して一般的な答えを出しました。:)
スタン

1
@KyleBridenstine優しい言葉をありがとう。賛成です。あなたは待つことによって正しいことをしたと思います。最初の答えは最善ではありません(それ何らかの理由である場合を除いて、結局締め切りがあります。)私はあなたの質問へのリンクとhiecuandaのすばらしい答えを、ブラジル!
スタン

2

ここに自分でアプローチするためのいくつかの良い答えがあります。

誰かに代金を払ってあなたに代わってもらうという私の経験を付け加えたいと思います。

イギリスでDigitize My Booksを使用しました(私はイギリスを拠点としています)。

結果に非常に満足しました。各書籍は、検索可能な(およびコピー可能な)テキストを含むPDFとして返されます。標準のPDF手法が使用されます。これにより、各ページの元の画像は保持されますが、テキストオーバーレイを使用して、ページ上の元のテキストを強調表示できます。とても良い値です。英国から海外の誰かとして、あなたは彼らに本を送ることができます。

彼らはまた、追加の非常に合理的なコストで、本を編集可能なワード文書形式にするオプションを提供します。

オリジナルを返却する必要がない場合、最も安価なオプションは、破壊的なスキャンを選択することです。これは、ページが本から個別に取得され、スキャンされる場所です。デフォルトでは、元の本は返却されませんが、おそらく追加費用で(たとえば、返送料の場合)リクエストできますが、ページは緩んでおり、個別にスキャンするために削除されています。破壊的スキャンはすべての本で私が選択したオプションであり、原本を返却する必要はありませんでした。

オリジナルが必要な場合は、非破壊的なコピーも提供しますが、コストは高くなります。また、すでに自分で本をスキャンしている場合は、自分のデジタルスキャンも受け入れます。これにより、検索可能なコピー可能なPDFまたはWordドキュメントに変換できます。

彼らのウェブサイトを見てください。私はこれが最良の選択肢だと本当に思っています。お金を節約するために時間を費やすのではなく、時間を節約するためにお金を使うことです。

私はDigitize My Booksで働いていませんし、それらに金銭的な利害関係もありません(株主またはその他)。

もともと私は本で「スキャン」を始めていました。クリップボードクリップとブルータックで各ページを開いたまま、デジタル一眼レフカメラ(フラットベッドスキャンよりも高速です)を使用して写真を撮っていました。しかし、これはかなり労働集約的であることがわかりました。

ScanTailorは、それを自分で行うことにまだ熱心な場合は、スキャンして2ページ/ペアのページを個別のページにフォーマットし、分割して、まっすぐにし、「変形」するオープンソースのWindowsアプリケーションです。結果のページは必要に応じてフラットでまっすぐに表示されますが、OCRは行われません。結果はビットマップ画像のままです。しかし、少なくともページのゆがみを整頓するバッチ自動化には、ある程度の方法があります。特に、大きな本の場合、ページを完全に平らに配置することが難しい非破壊コピーの場合はそうです。

更新しました

サービスが提供するスキャンオプションに関する詳細情報を追加しました。ScanTailorの詳細情報。文法の修正。


1

これを行う最も速い方法は、親戚に連絡して、その本を作成するために使用した元のファイルがまだ残っているかどうかを確認することです。フロントページの写真から、私はそれがコンピューターで作られたと思います。{ここに本当に古いワープロパッケージを挿入}から現在の形式に変換すれば完了です。

印刷物をデジタルドキュメントに変換する2番目に速い方法:

  1. バインディングを削除します。
  2. 穴を取り除くためにページの左端を切り取ります。穴がドキュメントフィーダーと干渉します。
  3. 本を読み、ドキュメントフィーダーを妨げる折り目やその他の損傷を広げます。
  4. ドキュメントフィーダーとスキャン機能を備えた合理的に近代的な両面印刷プリンターを見つけます。PDFにスキャンします。

次に、OCRパッケージを使用して、スキャンしたページをWordファイルに変換します。この目的のために、Adobe AcrobatのフルバージョンのOCR機能を使用していますが、周りには多くのOCRエンジンがあります。


0

非常に安価なサービス、preserve-your-memories.infoを試してみてください。自分で行う場合は、スキャナーを使用してOCRプログラムであるOmniPageをスキャンし、完全に検索可能なPDFファイルとして保存します。文書はプラスチック製のくし製本なので、分解して個々のページをスキャンしてから再度バインドするのは簡単です。上記の提案で概説されているように写真を撮ることも非常に実行可能です-多くのアプローチの中で良いものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.