まず、PDFが何であるかを理解する必要があります。PDFは印刷ページを模倣するように設計されており、入力形式ではなく出力形式としてのみ設計されています。PDFは基本的に、文字(個々の文字や句読点など)または画像の正確な位置を含むマップです。ほとんどの場合、PDFには1つの単語が終了して別の単語が開始する場所に関する情報さえ保存されず、段落区切りのソフトブレークとハードブレークのようなものははるかに少なくなります。
(最近のいくつかのPDFにはこのような情報が保存されていますが、それは新しい技術であり、そのようなPDFを見つけることができれば幸いです。たとえPDFビューアがそれを知らない場合もあります。)
とにかく、個々のキャラクターの場所から単語や段落などを抽出するための何らかの「人工知能」を実装するのは、ソフトウェア次第です。さまざまなソフトウェアがこれを他のソフトウェアよりもうまく実行し、PDFの作成方法にも依存します。いずれにせよ、完璧な結果を期待すべきではありません。出力PDFを持つことは、ソースドキュメントを持つことと同じではありません。可能であれば、それを取得しようとする方がはるかに良い。
あなたの種類の問題に対する標準的な解決策は、Adobe Acrobat Professional(無料のリーダーではなく高価なもの)を使用してPDFをHTMLに変換することです。それでさえ完璧な結果を得ることはできません。
書式設定の一部をそのままにしてPDFからテキストを抽出するために使用できる無料のソフトウェアがありますが、完全な結果を期待しないでください。たとえば、口径(RTF形式に変換可能)、pdftohtml / pdfreflow、またはAbiWordワードプロセッサ(すべてのインポート/エクスポートプラグインが有効)を参照してください。OpenOffice用のPDFインポートプラグインもあります。
ただし、これらの結果が完全であることを期待しないでください。あなたはここで穀物に反対しています。PDFは、単に編集可能な入力形式ではありません。