PDFファイルからテキストをコピーしようとしていますが、ゴミが出ます。Ubuntuでドキュメントリーダーを使用してドキュメントを読みます。コピーを許可していないようではありませんが、コピーされたテキストは次のようになります。
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
これを修正するにはどうすればよいですか?その大量のデータは、入力に非常に長い時間がかかります。
また、偶然にも、gedit(Ubuntu)で貼り付けられたテキストは次のようになりました。
(この質問でここに貼り付けた場合、外観が異なることに注意してください!)
どういうわけかエンコードの問題だと感じていますが、これを修正する方法を知る方法はありません。
3
意図的だと思います。ドキュメントを作成した人が意図的に作成したため、コピー/貼り付けまたはエクスポートできません。私もこのようなPDFをいくつか持っています。主に、AdobeソフトウェアによってPDFに作成された表またはExcelスプレッドシート。
—
-skub