オープンソース(および自動化)のファンとして、私はこれを言いたくありませんが、(非常に大規模で複雑なPDFで)得られた最良の結果は、Adobe Readerでそれを開き、[ファイル]、[テキストとして保存]を選択することでした
(読者としてではなく、テキスト分析実験の前処理をしていますが、最初と2番目の選択肢は同じだと思います。)
出力を並べて比較しています。私の2番目の選択肢は、ebook-convertです。
Adobe:改ページのFFのまま、ページ番号の左、見出し/段落は単一行に変換されていませんが、ハイフンが修正されています。PDFに隠されたジャンクは出力されませんでした。セクションの開始時に、「T he」や「T he」ではなく、「The」などの大資本を正しく取得しました。
ebook-convert:ページ番号に残され、ヘッダー/フッターに隠されたジャンク(FFはありません)。ほとんどの段落を単一行に変換します。それが逃したものはダブルスペースです!箇条書きは常にテキストと一致するとは限りません。チャプターの冒頭で正しく「The」を取得しました。
pdftotext(--layoutなし):悪くはありませんが、箇条書きは並んでいますが、ヘッダー/フッターのノイズです。FFがそこにあります。ハイフンが削除されました。チャプタービッグレターの開始が最悪: "T \ n \ nhe"。
pdftotext(with --layout):同様ですが、より多くのインデント。章の開始のための「T he」。
pdftohtml >> pdfreflow >> htmltotext:ページ番号を削除しましたが、ヘッダー/フッターにジャンクが残っています。章の開始のための「T he」。ハイフンが削除されました。(段落ごとに複数行を使用しますが、他のバージョンと同じ改行ではありません!)