PDFからテキストをコピーしようとしていますが、ごみが出ます


4

PDFファイルからテキストをコピーしようとしていますが、ゴミが出ます。Ubuntuでドキュメントリーダーを使用してドキュメントを読みます。コピーを許可していないようではありませんが、コピーされたテキストは次のようになります。

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

これを修正するにはどうすればよいですか?その大量のデータは、入力に非常に長い時間がかかります。

また、偶然にも、gedit(Ubuntu)で貼り付けられたテキストは次のようになりました。

私のシステムで (この質問でここに貼り付けた場合、外観が異なることに注意してください!)

どういうわけかエンコードの問題だと感じていますが、これを修正する方法を知る方法はありません。


3
意図的だと思います。ドキュメントを作成した人が意図的に作成したため、コピー/貼り付けまたはエクスポートできません。私もこのようなPDFをいくつか持っています。主に、AdobeソフトウェアによってPDFに作成された表またはExcelスプレッドシート。
-skub

@slhck確かに!ここにある
チャニ

回答:


2

基礎となるテキストが文字化けしています。@skubは、意図的なものであると考えるのが正しいと思います。テキストを取得する1つの方法は、各ページを画像(例:.jpgまたは.png)としてエクスポートし、OCRソフトウェアで画像をスキャンすることです。Adobe Acrobat Xを搭載したWindows 7でこれをテストできました。出来た。

更新:

ドキュメントビューアーに同様の機能がある場合、copy with formatting期待どおりにテキストをコピーします。深く掘り下げてみると、埋め込みフォントにはすべてカスタムエンコーディングがあることが確認できます。


2
UbuntuのOCRの詳細はこちら(OPが使用しているため)。
-slhck
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.