Webページ内のすべてのPDFリンクをダウンロードしますか?[閉まっている]


23

Webページ内のすべてのPDFリンクをダウンロードするための優れたソフトウェアを知っていますか?

オペレーティングシステムはWindows 7です。

回答:


36

wgetを使用して、次のようなコマンドを実行できます。

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

または、短いオプションで:

wget -r -l 1 -nd -nH -A pdf http://example.com

更新:更新ではWindows 7を実行していると表示されるためcmdプロンプトからWindowsのwgetを使用します。

更新2:グラフィカルソリューションの場合-他のファイルも取得するため、やりすぎかもしれませんが、DownThemAllです


あなたのアドバイスをありがとうケビン、wgetはよさそうだ、とにかく私は「グラフィック」ソフトウェア、非コマンドラインを好むだろう。:)
iAsk

2
これにより、最初の.htmlページも拒否されます。テストされたことはありますか?
dan3

質問はすべてのPDFリンクのダウンロードについて尋ねているため、はい、最初の.htmlページは無視されます。
ケビンワージントン

Power Shellを使用してWindows 7で同じことを行う可能性はありますか?
ベネディクト・ブヘール

1
また、ファイルのダウンロードの間に少なくとも数秒の遅延をスローすることをお勧めします。これにより、リモートサーバーに負担がかからないようにできます。たとえば、wgetの場合、フラグを追加します-w 5
KJH

6
  1. ブラウザでCTRL+ SHIFT+を押してJ、入力します

    var pdflinks = []; Array.prototype.map。call(document.querySelectorAll( "a [href $ = \"。pdf \ "]")、function(e、i){if((pdflinks || [])。indexOf(e.href)==-1) {pdflinks.push(e.href);}}); console.log(pdflinks.join( ""));

    これはコンソールに戻ります:

    " /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf

  2. 今使用してwgetコマンドラインオプションでwget url1 url2 ...

これをコピーして貼り付け、コンソールを開いてEnter wgetキーを押し、クリップボードのコンテンツを挿入してEnterキーを押します。

ダウンロードファイルを使用するには、行を「\ n」で結合し、次のようにパラメーターを使用します wget -i mydownload.txt

他のほとんどの(GUI)ダウンロードプログラムも、スペースで区切られたURLのリストで呼び出されることを受け入れます。

お役に立てれば。これが私が一般的に行う方法です。グラフィカルUIを備えた拡張機能よりも高速で柔軟性が高いため、習得しておく必要があります。


1
さらに良いconsole.log('"' + pdflinks.join('" "') + '"')ことです-そうでなければ、実際に引用符で囲まれたURLを取得しません
dan3

1

ブラウザーにとどまる場合は、まさにこの目的のためにWeb拡張機能を作成しました-学術記事のPDFを適切にフォーマットされたタイトルで保存する機能を追加しようとしていますが、「すべてをダウンロードしたい場合は完璧です」このため。

これはTab Saveと呼ばれ、Chromeウェブストアにあります。それらをすべてタブで開くだけであれば、URLのリストを入力する必要さえありません(ただし、多数のファイルの場合、コンピューターの速度が低下する可能性があるため、独自のオプションを追加しました)。


0

私は最近、これにuGet(Windows)を使用しました。GUIがあり、ダウンロードするファイルをフィルタリングできます。

それらすべてを思い出そうとして保存します


0

Google Chromeでは、次のような拡張機能を使用できます。

  • マスターをダウンロード

    この拡張機能を使用すると、アクセスしているWebページにリンクされているすべての画像、ビデオ、pdf、doc、およびその他のファイルをダウンロードできます。


0

グーグル

Googleの検索結果に基づいてWebサイトからPDFリンクをダウンロードできるPythonツールはほとんどありません。

例えば

注:私は、上記の両方のスクリプトのメンテナーです。

どちらもxgooglePythonライブラリを実装しています。このライブラリの私のフォークは、pkrumins/xgoogleバージョンに基づいています。


関連:LinuxコマンドラインからのWeb検索

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.