特定の単語を含むすべてのPDFを選択する方法は?


1

5000のpdfがありますが、そのうち500のpdfが重要で、残りは役に立たない。他の4500ファイルには存在しない500ファイルごとに1つの単語が存在します。複数のファイルを検索したところ、Adobe Readerの検索結果から500 pdfを選択できないことがわかりました。特定の単語を含む複数のPDFファイルを選択する他の方法はありますか?


PDFは言葉だけなしの画像が含まれています
アナンド

PDF間に均一性はありますか?ページ数に一貫性はありますか?それらはすべて同じ形式で、一意の情報が入力されているだけですか?キーワードは500ヒットのそれぞれで同じ場所に表示されますか?その場合、それらをすべて1つの巨大なPDFに結合し、ページをトリミングして、キーワードを含む場合と含まない場合がある領域のみを含めることができます。これにより、ページ番号が変更されていないファイルに対応する、はるかに管理しやすいテキストプールが残ります。そのように判断するために、Excelにエクスポートすることもできます。
Pフィッツ

「複数ファイル検索」と言うとき、リーダーの高度な検索機能(Ctrl + Alt + F)を指していますか?
Pフィッツ

PDFの生成方法に関する背景を教えてください。pdfTKのようなツールを使用して、テキストドキュメントから直接生成されたPDFをデコードおよび分割できます。
デビッド

メモ帳でPDFを見るとどうなりますか?メモ帳の検索機能でテキストドキュメントを検索できますか?
デビッド

回答:


1

主に3つのオプションがあります

オプション1:

5000のPDFを入手してください。500個のフォルダーを10個作成します。個別の検索を10回実行します。

オプション2:

Windowsサーチ(間違いなく10、他の人にはわからないが一見の価値あり)はPDFファイルを通して機能します。フォルダに移動して、キーワードを入力すると、関連するすべてのファイルが返されます。

オプション3:

iTextSharpなどのライブラリを使用すると、C#などのドキュメントからテキストを取得できます。C#を使用できる場合は、すべてのドキュメントをループして、必要な処理を実行できます。

どうやらFoxItリーダーはフォルダ機能を介して同様の検索を提供します-これが500に制限されているかどうかはわかりません。


1
これらのオプションはすべて、PDFを解析可能/検索可能にする必要があることに注意してください。多くのPDFは、特に高品質のOCRを使用せずにスキャンしたドキュメントから作成されたものではありません。マウスでテキストを選択できる場合、ドキュメントは機能するはずですが、個別の単語を選択できない場合、ドキュメントは検索できません。数年前、インデックス付きのドキュメントリポジトリを作成する必要があったため、IKVM.NetでPDFBoxを使用してインデックス用のテキストをプルしましたが、多くのドキュメントを印刷および再スキャンする必要がありました。それ以外の場合は、元の写真のようでした。
フランクトーマス

はい、申し訳ありませんが、テキストは実際のテキストであり、画像や奇妙なエンコードではないと盲目的に想定していました。このコメントは間違いなく重要です。文書がスキャンである場合、賢いOCRソフトウェアがなければ、運が悪いでしょう。
on野

(私が思うに)Adobe Readerの新しいバージョンにはOCRが組み込まれているため、埋め込まれた画像のみで構成されるPDFを検索します。 Canon、Kryocera、Epson)。コニカスキャナーで生成された職場の画像ベースのPDFを確実に検索することができ、PDFはAdobe Readerで表示したときに埋め込まれたJPGのみです。
デビッド

0

私は、何千ものPDFファイルを検索し、特定の文字列を含むファイルを操作する方法について、まったく同じ問題を解決してきました。xPDFSearchプラグインを備えたTotal Commanderが私のためにトリックをしてくれました。このプラグインは、Total Commanderの検索機能を強化して、PDFメタタグを介した検索、または全文検索さえ可能にします。

Total CommanderはSharewareとしても利用できますが、必要に応じてこの素晴らしいマネージャーの作者に貢献してください。


推奨するソフトウェアがOPの質問をどのように解決できるかについての情報と、それらの機能の簡単な要約を追加することを検討してください。詳細については、以下meta.superuser.com/questions/5329/...
Vylix

たぶん、あなたはTotal Commanderの著者ですか、それとも親しい友人、親relative、または仲間ですか?もしそうなら、そう言わなければならないからです。
スコット

@Vylix答えを少し広げましたが、うまくいけばうまくいきます。
cryfcad

@Scott著者とは関係ありません。ソフトウェアを本当に愛しており、10年以上使用しています。
cryfcad
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.