PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか?変換が速いアプリケーションを探しています。私は口径を試してみました。10分後、コンバージョンの2%にも達していません。だから口径をしないでください。CLIが推奨されます。
PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか?変換が速いアプリケーションを探しています。私は口径を試してみました。10分後、コンバージョンの2%にも達していません。だから口径をしないでください。CLIが推奨されます。
回答:
さまざまな形式(epub、mobi、pdf)からの変換には、通常Calibreを使用します。これで変換するのは非常に簡単です。ここにスクリーンショットがあります。他にもあり、ビデオチュートリアルもあります。
私はPDFファイルに対してこれを1回行う必要があり、これが結果でした(popplerのpdftohtmlを使用)。
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
zipをCalibreにフィードし、EPUBに変換します。すべてのCSSプロパティ(色、フォントなど)をフィルタリングします。
PDFファイルはそれぞれ異なります-決定的な解決策はありません。上記は1つの特定のケースで機能しました-pdftohtml / pdftotextを弱くしてから、ニーズに合わせて出力を微調整する必要があります。
これが失敗し、OCRに頼らなければならない場合は、楔形文字で運が良かったです。しかし、tesseract、ocrad、gocrも試してください。しかし、それらすべては良い結果を得るために手作業を必要とします。