PDFからテキストをコピーしようとしていますが、ごみが出ます

PDFファイルからテキストをコピーしようとしていますが、ゴミが出ます。Ubuntuでドキュメントリーダーを使用してドキュメントを読みます。コピーを許可していないようではありませんが、コピーされたテキストは次のようになります。

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

これを修正するにはどうすればよいですか？その大量のデータは、入力に非常に長い時間がかかります。

また、偶然にも、gedit（Ubuntu）で貼り付けられたテキストは次のようになりました。

私のシステムで（この質問でここに貼り付けた場合、外観が異なることに注意してください！）

どういうわけかエンコードの問題だと感じていますが、これを修正する方法を知る方法はありません。

ubuntu pdf encoding

— チャニ
ソース

意図的だと思います。ドキュメントを作成した人が意図的に作成したため、コピー/貼り付けまたはエクスポートできません。私もこのようなPDFをいくつか持っています。主に、AdobeソフトウェアによってPDFに作成された表またはExcelスプレッドシート。

— -skub

@slhck確かに！ここにある

— チャニ

基礎となるテキストが文字化けしています。@skubは、意図的なものであると考えるのが正しいと思います。テキストを取得する1つの方法は、各ページを画像（例：.jpgまたは.png）としてエクスポートし、OCRソフトウェアで画像をスキャンすることです。Adobe Acrobat Xを搭載したWindows 7でこれをテストできました。出来た。

更新：

ドキュメントビューアーに同様の機能がある場合、copy with formatting期待どおりにテキストをコピーします。深く掘り下げてみると、埋め込みフォントにはすべてカスタムエンコーディングがあることが確認できます。

— iglvzx
ソース

UbuntuのOCRの詳細はこちら（OPが使用しているため）。

— -slhck