外観(Webブラウザーとまったく同じ)とテキスト/リンクを保持したままWebページをPDFに変換する方法は?


24

WebページをPDFに変換する方法を探していますが、Webページの外観を維持します。また、Webページのテキストを保持(選択可能)、検索可能[Webページの画像スクリーンショットを生成すると、テキストは選択も検索もできなくなります]。

スタイルや配置を操作したり、Webページの静的コンポーネントを失ったりすることなく、WebページをそのままPDFに印刷することを探しています。

これは、簡単に読み取り、注釈、検索が可能なWebページのオフラインコピーを保持するのに役立ちます。


私の質問を得るために、以下を読む必要はありません(質問は上のセクションにすぎません)。次のセクションでは、質問の答えに到達するために、ネストされた方法で調査または他の人の答えを取得しました。

研究成果(私の問題を解決しなかった提案)

解決策を見つけようとするこれまでの結果(この質問に対する解決策としてはまだすべて機能していません)

私はこれらのPDF Web印刷エンジンを試しましたが、すべてがページの外観を操作し、さらに損害を与え、読みにくくしました:(ページのスクリーンショットのは角括弧に含まれています)

  • Chrome [ オリジナル、印刷スタイル(無効 | 無効ではない)]
  • Firefox [ オリジナル、印刷スタイル(無効化されたp1p2 |無効化されていないp1p2)]
  • 読みやすさ
    • Webページを簡素化します(これは集中的な読書に適していますが、これは私が探しているものではありません)。Webブラウザで見られるように、Webページのすべての位置/スタイルプロパティを、操作なしでPDF形式で保持することを探しています。
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ オリジナルズーム係数:0.4:スクリーンショット、出力PDF]
    • Windowsでプログラムの実行の問題を解決した後にリンクを追加します」
  • wkhtmltopdf [ オリジナルズーム係数:0.4スクリーンショット、出力PDF ]
    • CSS3をサポートしていません。

すべてのWebページのスクリーンショット画像キャプチャプラグイン(例:AbductionAwesome ScreenshotFireshotFirefox Screenshot Developer ToolFull Page Screen CapturePage2Imagesweb-captureなど)は、テキストとリンク

Scribleは、さらなる注釈と調査のためにWebページを保存するのに優れていますが、残念ながらまだオンラインでPDF形式に変換されていません。

コミュニティには他にも2つの質問がありますが、どうやら私の質問と似ていますが、これは少し異なりますが、重要な違いがあります。

  • WebブラウザでWYSIWYP(表示内容を印刷)を取得する方法は?
    • この質問は、たとえ画像であってもテキストが保存されない場合でも、(画面に表示される)Webページをキャプチャする方法について尋ねます。一方、テキストとリンクのキャプチャも探しています(テキストとリンクを保存することが重要です)。

テキストとリンクを保存する必要がない場合の同様の質問(ページはほとんど画像のスクリーンショットとしてキャプチャされます):


ノート

OS:Windows 10


ブラウザから印刷する場合は、最初に印刷スタイルシートを無効にして、Webページの画面の外観を維持する必要があります。
DavidPostill

参照WebブラウザでWYSIWYP(あなたが見るものの印刷)を取得する方法は?。その質問に対する私の答えをご覧ください。
DavidPostill

その後、CutePDF writerを使用して印刷できます。
DavidPostill

@DavidPostill印刷スタイルを無効にしても機能しないか、ブラウザがPDFを正しく表示するのに影響しないようです。質問の編集バージョンにサンプルのスクリーンショットが追加されました。
オマー

今日も同じ質問があり、このページは
役に立ち

回答:


7

私たちは大学のプロジェクトで同じ問題に直面し、それを使用してそれを解決することができました

wkhtmltopdf

コマンドラインでこのツールの機能を十分に活用しました。また、Pythonコードを使用してWebページの現在の状態を表示するために呼び出しました。WebページをPDFとして配信するオプションがあります。通常は、ページの書式設定(A4など)のためにWebサイトビューを保持するのに最適ではないか、PNG(ページビューを保持しますがリンクは保持しません)

また、私たちが使用したreadability(Python:pypi.python.org/pypi/readability-lxml)プロジェクトは、広告の削除とコンテンツの検出を非常にうまく行います(新聞記事など)。ブラウザのアドオンまたは拡張機能が必要な場合は、次の読みやすさの実装でニーズを満たすことができます。

https://www.readability.com/addons/


残念ながら、wkhtmltopdfはページの要素の位置を保持しませんでした。ページの例:ズーム係数:0.4:スクリーンショット、出力されたPDF
Omar

読みやすさはページを簡素化します(これは良いことですが、これは私が探しているものではありません)。Webブラウザで見られるように、すべてのページの位置/スタイルプロパティを、操作なしでPDF形式で保持する必要があります。
オマー

ツールのwkhtmltopngオプションを使用しましたか?pngとして、位置は大丈夫です(少なくとも、ページがA4形式に適合しているpdfバージョンよりも優れているはずです)
sebisnow

3

考えられるユーザーに別の回答を提供します。Firefoxには、「ページをPDFに印刷」というアドオンがありました。最後のバージョン0.1.9.3を検索できます(以前のバージョンでのみ動作します)。

現在、ChromeとFirefoxの両方に非常にうまく機能するこのアドオンがあります: PDFMage

  • ページ内のすべての画像を保存する
  • テキストを画像ではなくテキストとして生成します。生成されたPDFでテキストを検索できます。
  • プリサーバーハイパーリンク
  • 長いWebページを1ページのPDFとして保存するオプションがあります(したがって、画像はページ間で分割されません)

2

私はこれに本当に苦労し、これまで述べてきたほとんどのツールを試しました。私が得た最良の結果は、Chromeのヘッドレスモードを使用することでした。MacOSのコマンドは次のようになります。

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

私が見つけたコマンドラインオプションの最良のリストはこちらです。

しかし、それには問題がありました。具体的には、私のページは非常にjavascriptが重いため、実行が完了するまで印刷機能を待機させることはできませんでした。そのため、私の出力には画像が含まれていませんでした。

私が見つけた解決策は、nodeJSパッケージでしたchrome-headless-render-pdf。わずかなドキュメントはこちらです。動作し、簡単にスクリプト化できます。


2

私も同じ問題を抱えていたので、ChromeとPDF995という無料のプリンタードライバーを使用して解決しました。これは、一連のPDFユーティリティの一部です。出版社のWebサイトはhttp://www.pdf995.com/です。

ただし、WebブラウザーとPDFコンバーターで十分だと思います。とにかく、私がやったことは次のとおりです。

  1. すべてを選択するか、すべてを強調表示します。
  2. 強調表示された選択を右クリックするか、Ctrl + Pを押します(両方のオプションでは結果が少し異なりますが、完了後は同じ結果になります)。

  3. 2.(ショートカット)で右クリックした場合は、[印刷]をクリックすると、選択したもののみが印刷プレビューに表示されます。使用するPDFコンバーター(PDF995またはその他)にプリンターの宛先を必ず変更してください。

  4. [印刷]をクリックすると、PDFドキュメントとして保存されます。

  5. 代わりに2.でCtrl + Pを押した場合(少し長い方法)、[詳細設定]をクリックし、[オプション]まで下にスクロールします。

  6. 「選択のみ」というボックスをクリックすると、説明したショートカットのすべてが表示されます。

  7. プリンターの出力先を、選択したPDFコンバーター(PDF995またはその他)に変更することを忘れないでください。

  8. 「印刷」をクリックします。



0

正確にはあなたのリクエストはPDFにないのとは異なりますが、目的が純粋にWebページのオフラインコピーを後でレビューするために保持することである場合、Webページとして保存するとそれができます。

大きな注意点は、単一のドキュメントではなく、ページ上のすべてのメディアコンテンツを含む.htmlファイルとフォルダーを作成することです。

ChromeとFirefoxでは、ページを右クリックして[名前を付けて保存...]を選択し、ページを保存できます。InternetExplorerでは、[ファイル]-> [名前を付けて保存]で保存できます(メニューを表示するにはAltキーを押します)。


Webページを.html形式で保存すると、注釈が付けられなくなります。だから、私はそれをPDF形式で必要とします。
オマー

それは良い点です!印刷関連のスタイルシートを簡単に無効にできる拡張機能を思い出してください。簡単なグーグル検索により、スーパーユーザーで最初に聞いたときの議論に至りました:WebブラウザでWYSIWYP(表示されるものを印刷する)を取得するには?
ピエメ

Chromeを使用して「名前を付けて保存」を試みました。.HTMLファイルとフォルダーを作成します。.HTLMファイルには、ページから多くのものが欠落していました。
SherlockSpreadsheets

0

このサービスを試してください。ブラウザに表示されているとおりにWebサイトからPDFを作成します。https://lomotoh.com/(私はこのサイトと提携しています)


これはリンクを保持しますが、選択可能なテキストは保持しません。これは質問の要件です。
fixer1234

一部のサイトでは選択可能と思われます。サイトが使用するカスタムフォントの種類に依存すると思います。
デビッドハース

0

少なくとも一部のページのテキストはすべて、検索、選択、切り取り、貼り付けが可能です。テキストとpixをコンピュータでロボットで貼り付けたページで試してみたところ、すべてが画像に調整されました。

私はこれらのものを何年も使用しています。Linuxで最適な結果を得るには、選択したXXワードでページを再構築し、結果をPDFとしてエクスポートします。かなりの費用で欲しいものを手に入れることができます。私の限られた使用アーチivinからDavid Herseがhttps://lomotoh.com/を設置したサイト (私はこのサイトとは提携していません)は私が今まで使ったものと同様に動作します。私がリソースを探して、WebページをPDFでカバーするようになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.