タグ付けされた質問 「extraction」


15
PDFからテキストを抽出する方法は?[閉まっている]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?Stack Overflowのトピックとなるように質問を更新します。 5年前休業。 この質問を改善する PDFからテキストと画像を抽出するためにライブラリ/ APIを推奨することはできますか?ドキュメントの既知の領域に含まれるテキストを取得できる必要があるため、APIはページ上の各要素の位置情報を提供する必要があります。 そのデータを出力したい xmlまたはjson形式ます。現在、かなり良いと思われるPdfTextStreamを調べていますが、他の人々の経験や提案を聞きたいと思います。 プログラムでPDFからテキストを抽出するための代替手段(商用または無料)はありますか?

4
可読性はURLからテキストを抽出するためにどのアルゴリズムを使用しますか?
しばらくの間、私は広告に関連するテキストやその他すべての混乱を排除することにより、URLから「関連する」テキストをインテリジェントに抽出する方法を模索してきました。数か月の調査の後、私はそれを問題としてあきらめました正確に決定することはできません。(私はさまざまな方法を試しましたが、どれも信頼できませんでした) 1週間前、私は可読性 -あらゆるURLを可読テキストに変換するプラグイン- を偶然見つけました。それは私にはかなり正確に見えます。私の推測では、彼らはどういうわけか、関連するテキストを抽出するのに十分スマートなアルゴリズムを持っています。 誰かがそれをどのように行うか知っていますか?または、どうすれば確実にそれを実行できますか?

3
暗号化されたPDFからのPythonデータの抽出
私は純粋な数学の最近の卒業生で、基本的なプログラミングコースをほとんど履修していません。私はインターンシップを行っており、内部データ分析プロジェクトがあります。ここ数年の内部PDFを分析する必要があります。PDFは「保護されています」。つまり、暗号化されます。PDFパスワードはありません。さらに、パスワードが存在するかどうかは不明です。しかし、これらのドキュメントはすべて揃っており、手動で読むことができます。印刷することもできます。目標は、私たちがいくつかのアイデアを持っている言語であるPythonで読むことです。 まず、いくつかのPythonライブラリでPDFを読み込もうとしました。しかし、私が見つけたPythonライブラリは暗号化されたPDFを読みません。当時は、Adobe Readerでもエクスポートできませんでした。 次に、PDFを復号化することにしました。Pythonライブラリーpykepdfを使用して成功しました。Pykepdfは非常にうまく機能します!ただし、復号化されたPDFは、前のポイントのPythonライブラリ(PyPDF2およびTabula)でも読み取ることができません。現時点では、Adobe Readerを使用して復号化されたPDFから情報をエクスポートできるため、多少の改善がありましたが、目的はすべてをPythonで行うことです。 私が示しているコードは、暗号化されていないPDFでは完全に機能しますが、暗号化されたPDFでは機能しません。pykepdfで取得した復号化されたPDFでも機能しません。 私はコードを書きませんでした。PythonライブラリPykepdfとTabulaのドキュメントで見つけました。PyPDF2ソリューションは、Al Sweigartの著書「Automate the Boring Stuff with Python」で私が強く推奨しています。また、前に説明した制限付きで、コードが正常に機能していることも確認しました。 最初の質問、プログラムが暗号化されたことのないファイルで動作する場合、なぜ復号化されたファイルを読み取れないのですか? 2番目の質問、復号化されたファイルをPythonで何らかの方法で読み取ることができますか?どのライブラリがそれを実行できるか、または不可能ですか?復号化されたPDFはすべて抽出可能ですか? あなたの時間と助けてくれてありがとう!!! これらの結果は、Python 3.7、Windows 10、Jupiter Notebooks、およびAnaconda 2019.07を使用して見つかりました。 Python import pikepdf with pikepdf.open("encrypted.pdf") as pdf: num_pages = len(pdf.pages) del pdf.pages[-1] pdf.save("decrypted.pdf") import tabula tabula.read_pdf("decrypted.pdf", stream=True) import PyPDF2 pdfFileObj=open("decrypted.pdf", "rb") pdfReader=PyPDF2.PdfFileReader(pdfFileObj) pdfReader.numPages pageObj=pdfReader.getPage(0) pageObj.extractText() Tabulaを使用すると、「出力ファイルが空です」というメッセージが表示されます。 PyPDF2では、「/ n」のみが表示されます UPDATE …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.