PDFを電子書籍形式に変換する方法

8

PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか？変換が速いアプリケーションを探しています。私は口径を試してみました。10分後、コンバージョンの2％にも達していません。だから口径をしないでください。CLIが推奨されます。

pdf ebooks

— ManuelSchneid3r
ソース

6

あなたは試すべきですpdftotext（パッケージのUbuntuの下に来ますpoppler-utils）。コマンドラインコンバーターです。PDFにはテキストがあり、画像のみで構成されていないことを前提としています。

PDFファイルが画像（OCR情報なし）で構成されている場合は、OCRソリューションを使用する必要があります。

私は、スクランブルされたPDFテキスト（ページ上の個々の文字をノンリニア方式で配置すること）でもOCRメソッドをうまく使用しました。次に、たとえばpdftoppm、ページの個々の画像を取得し、それらをOCRするために使用します。

— アンソン
ソース

6

さまざまな形式（epub、mobi、pdf）からの変換には、通常Calibreを使用します。これで変換するのは非常に簡単です。ここにスクリーンショットがあります。他にもあり、ビデオチュートリアルもあります。

スクリーンショット

口径のSS

— slm
ソース

3

「口径をしないでください」のどの部分が不明確ですか？

— mlp 2013

5

SEサイトで質問に回答するときは、OPと将来このQ＆Aスレッドを見つけた人の両方にサービスを提供しています。この回答は、それらの個人のすべての基盤をカバーすることを意図しています。また、キャリバーは、おそらくOPはバギーのバージョンを持っていた、最良の選択肢かもしれないORそれは間違って設定されました。私はそれを何十回も使用しました、そしてそれは変換の素晴らしい仕事をします。

— slm

固定レイアウトでpfdファイルをepubに変換できません。固定レイアウトでPDFをePubに変換するために必要な手順を教えてください。

— モハンラトホール

1

私はPDFファイルに対してこれを1回行う必要があり、これが結果でした（popplerのpdftohtmlを使用）。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zipをCalibreにフィードし、EPUBに変換します。すべてのCSSプロパティ（色、フォントなど）をフィルタリングします。

PDFファイルはそれぞれ異なります-決定的な解決策はありません。上記は1つの特定のケースで機能しました-pdftohtml / pdftotextを弱くしてから、ニーズに合わせて出力を微調整する必要があります。

これが失敗し、OCRに頼らなければならない場合は、楔形文字で運が良かったです。しかし、tesseract、ocrad、gocrも試してください。しかし、それらすべては良い結果を得るために手作業を必要とします。

— 霜降り
ソース