PDFドキュメントからテキストを抽出できるPDFライブラリを探しています。PyPDFを見てきましたが、これでPDFドキュメントからテキストを非常にうまく抽出できます。これに伴う問題は、ドキュメントにテーブルがある場合、テーブル内のテキストがドキュメントの残りのテキストと一致して抽出されることです。これは、役に立たず、文字化けしているように見えるテキストのセクションを生成するため、問題になる可能性があります(たとえば、多数の数字がマッシュアップされます)。
表や特別なフォーマットを除いて、PDFドキュメントからテキストを抽出したいと思います。これを行うライブラリはありますか?