PDFからスプレッドシートに何千ものテキストスニペットを取得する必要があります。それらは短く、2〜3行以上はめったにありませんが、改行ごとに新しいセルが作成されるため、手動で修復する必要があり、時間がかかります。
私はそれらの多くを持っているため、「Wordに貼り付けて検索と置換を行う」回避策を使用するのは、私にとって時間の無駄です。コピー時に改行を消す方法はありますか?たぶん、これのための特別なコピーモードを提供するビューアーがあるか、プラグインがありますか?
文書は科学記事です。テキストの配置は非常に直線的です。私がコピーしているテキストは、テーブルやフロートの中になく、回転などしていないと仮定できます。(そのようなことが起こったら、私はそれを手動で処理すると思います)。テキストは2列に設定されることがよくありますが、その列から必要なテキストだけをマークしても問題ありません。特別な書式を保持する必要はありません。たとえば、すべての印刷できない文字を削除するソリューションを試してみます。テキストは英語です。ソリューションがASCIIでのみ機能する場合は問題ありません。コピーしたテキストのすべての非英数字ASCIIを削除します。
Linux、おそらくある種のOkularプラグインで動作するソリューションを非常に強く好みます。しかし、たまたまWindows専用のソリューションがある場合は、それについても聞きたいと思います。私はWindowsマシン上でやや最近のAcrobat Proのライセンスを持っています。