lessはPDFをどのように表示しますか?


52

私はいくつかのプログラムを試しました:pdftotext、pdf2txt.py、...それらはすべてPDFからテキストを抽出できますが、より良い仕事をしているものは良いlessです:PDFからのテキストは適切なレイアウトを持っています。これをどうやって減らすのですか?ライブラリを使用していますか、それともPDF処理が組み込まれていますか?

私はこの機能をプログラムで使用したいので、外部プログラムとして実行する必要が少なくなります(私はpythonを実行しています)ので、私は尋ねています。

私のシステムは:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

回答:


63

お使いのディストリビューションは、おそらく一般的なlesspipe.shスクリプトを使用しています。LESSOPEN環境変数を確認してください。

このスクリプトには多くのバリエーションがあります。Gentooバージョンを見ています。その中には、次の行があります。

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

つまり、表示された順序でこれらのコマンドを試行します。$1ファイル名です。

別のバージョンでは、次のコマンドを使用します。

pdftohtml -stdout "$t" | parsehtml -

15
おかげで、それが使用されていることが判明pdftotext -layout $1 -
dangonfast

@ jeckyll2hide より少ない結果でより良い結果の説明を見つけましたか?
vvy

@vvyおそらく-layoutスイッチ。;)
ダニエルB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.