TIFFからTEXT、またはテキストの内容に基づいてTIFFファイルにインデックスを付ける


1

私は数千のTiffファイルを持っていて、それぞれが複数ページのテキスト文書です。これらのファイルの内容を検索して、名前、市、郡、州、市区町村、郵便番号などの特定の情報に基づいてそれらを整理/索引付けできるようにしたいと思います。 目的は、検索語句に基づいて関連ファイルを見つけることです。たとえば、 "Doyle、Bob"と "Orange County"を検索すると、これらの用語を含むすべてのファイルが取得されます。 私は利用可能なwindowsとlinux PCを持っています、しかしそれはクロスプラットフォームである必要はありません。

何を指示してるんですか?

回答:


1

これらの(tiff)ファイルの内容を検索したいのですが。

Windows用とLinux用の2つの解決策を以下に示します。


Windowsソリューション

あなたはインストールすることができます TIFF IFilter

Windows®TIFF IFilterにより、TIFF文書をベースにした検索が可能   テキストコンテンツに。ロードされると、Windows TIFF IFilterは光学式を実行します。   TIFF画像の文字認識(OCR)処理、そしてそれ   認識されたテキストを呼び出し元に提供して検索インデックスを作成します。

Windows TIFF IFilterはテキストベースの文書に焦点を当てています。   明確に含まれている文書の検索はより成功します。   識別可能なテキスト(たとえば、白地に黒のテキスト)   コンテンツが混在している文書では、あまりうまくいきません(たとえば、   芸術的なテキストや写真の中のテキスト)また、低品質   画像や言語が混在していると、OCR処理に悪影響を及ぼす可能性があります。   その結果、検索結果の品質が低下します。

Windows TIFF IFilterは、苦情があるすべてのTIFF文書をサポートします。   Adobe TIFF Revision 6.0の仕様に準拠しています。   頻繁な圧縮(LZW、JPG、CCITT v4、CCITT v6、および   非圧縮)。

ソースリンクには詳細なインストール手順が含まれています。

注意:

ソース Windows TIFF IFilterインストールと操作ガイド


Linuxソリューション

  1. TIFFファイルをテキストファイルまたはPDFファイルに変換します。

    • 以下のリンクは、中間のOCRステップ(Tesseractを使用)でPDFに変換する方法を示しています。

    • 中間ステップはテキストファイルを作成します。

    • つまり、PDFは画像ではなくテキストから作成されます。

  2. あなたが望むようにテキストファイルかPDFファイルを捜しなさい。

見る OCRを使ったテキストのスキャンと編集 変換のための一つのアプローチのために。


PDFには画像を含めることができます。通常、PDFに変換されたTIFFにはファイルの画像のみが含まれます(非OCRコンバータ)。
Giacomo Catenazzi

@GiacomoCatenazzi私が引用したリンクは、Tesseractを使用した中間OCRステップを使用することによってその問題を解決します;)私は答えを明確にします。
DavidPostill
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.