タグ付けされた質問 「text-extraction」

13
PDFをテキストに変換するPythonモジュール[終了]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか? Stack Overflowのトピックとなるように質問を更新します。 5年前休業。 PDFファイルをテキストに変換するPythonモジュールはありますか?pypdfを使用するActivestateで見つかったコードの1つを試してみましたが、生成されたテキストの間にスペースがなく、役に立ちませんでした。


15
PDFからテキストを抽出する方法は?[閉まっている]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?Stack Overflowのトピックとなるように質問を更新します。 5年前休業。 この質問を改善する PDFからテキストと画像を抽出するためにライブラリ/ APIを推奨することはできますか?ドキュメントの既知の領域に含まれるテキストを取得できる必要があるため、APIはページ上の各要素の位置情報を提供する必要があります。 そのデータを出力したい xmlまたはjson形式ます。現在、かなり良いと思われるPdfTextStreamを調べていますが、他の人々の経験や提案を聞きたいと思います。 プログラムでPDFからテキストを抽出するための代替手段(商用または無料)はありますか?

8
grep、regex、またはperlを使用してパターンに従って文字列を抽出する方法
次のようなファイルがあります。 <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> 私は続く引用符で何かを抽出する必要がありname=、すなわち、content_analyzer、content_analyzer2とcontent_analyzer_items。 私はこれをLinuxボックスで行っているので、sed、perl、grep、またはbashを使用したソリューションで問題ありません。

5
PythonでPDFMinerを使用してPDFファイルからテキストを抽出しますか?
PythonでPDFMinerを使用してPDFファイルからテキストを抽出する方法に関するドキュメントまたは例を探しています。 PDFMinerがAPIを更新したようで、私が見つけたすべての関連する例には古いコードが含まれています(クラスとメソッドが変更されています)。PDFファイルからテキストを抽出するタスクを簡単にすることがわかったライブラリは、古いPDFMiner構文を使用しているため、これを行う方法がわかりません。 現状では、ソースコードを調べて、理解できるかどうかを確認しています。

2
Pythonを使用したPDF解析-フォーマットされたプレーンテキストの抽出[クローズ]
閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、StackOverflowのトピックになります。 5年前に閉鎖されました。 この質問を改善する PDFドキュメントからテキストを抽出できるPDFライブラリを探しています。PyPDFを見てきましたが、これでPDFドキュメントからテキストを非常にうまく抽出できます。これに伴う問題は、ドキュメントにテーブルがある場合、テーブル内のテキストがドキュメントの残りのテキストと一致して抽出されることです。これは、役に立たず、文字化けしているように見えるテキストのセクションを生成するため、問題になる可能性があります(たとえば、多数の数字がマッシュアップされます)。 表や特別なフォーマットを除いて、PDFドキュメントからテキストを抽出したいと思います。これを行うライブラリはありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.