Webページ内のすべてのPDFリンクをダウンロードしますか？[閉まっている]

23

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。

この質問を改善したいですか？ 質問を更新することがありますので、上のトピックスーパーユーザーのために。

去年閉鎖されました。

Webページ内のすべてのPDFリンクをダウンロードするための優れたソフトウェアを知っていますか？

オペレーティングシステムはWindows 7です。

— iAsk
ソース

36

wgetを使用して、次のようなコマンドを実行できます。

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

または、短いオプションで：

wget -r -l 1 -nd -nH -A pdf http://example.com

更新：更新ではWindows 7を実行していると表示されるため、cmdプロンプトからWindowsのwgetを使用します。

更新2：グラフィカルソリューションの場合-他のファイルも取得するため、やりすぎかもしれませんが、DownThemAllです

— ケビン・ワーシントン
ソース

あなたのアドバイスをありがとうケビン、wgetはよさそうだ、とにかく私は「グラフィック」ソフトウェア、非コマンドラインを好むだろう。:)

— iAsk

2

これにより、最初の.htmlページも拒否されます。テストされたことはありますか？

— dan3

質問はすべてのPDFリンクのダウンロードについて尋ねているため、はい、最初の.htmlページは無視されます。

— ケビンワージントン

Power Shellを使用してWindows 7で同じことを行う可能性はありますか？

— ベネディクト・ブヘール

1

また、ファイルのダウンロードの間に少なくとも数秒の遅延をスローすることをお勧めします。これにより、リモートサーバーに負担がかからないようにできます。たとえば、wgetの場合、フラグを追加します-w 5

— KJH

6

ブラウザでCTRL+ SHIFT+を押してJ、入力します

var pdflinks = []; Array.prototype.map。call（document.querySelectorAll（ "a [href $ = \"。pdf \ "]"）、function（e、i）{if（（pdflinks || []）。indexOf（e.href）==-1） {pdflinks.push（e.href）;}}）; console.log（pdflinks.join（ ""））;

これはコンソールに戻ります：

" /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf」
今使用してwgetコマンドラインオプションでwget url1 url2 ...

これをコピーして貼り付け、コンソールを開いてEnter wgetキーを押し、クリップボードのコンテンツを挿入してEnterキーを押します。

ダウンロードファイルを使用するには、行を「\ n」で結合し、次のようにパラメーターを使用します wget -i mydownload.txt

他のほとんどの（GUI）ダウンロードプログラムも、スペースで区切られたURLのリストで呼び出されることを受け入れます。

お役に立てれば。これが私が一般的に行う方法です。グラフィカルUIを備えた拡張機能よりも高速で柔軟性が高いため、習得しておく必要があります。

— ローレンツ・ロ・ザウアー
ソース

1

さらに良いconsole.log('"' + pdflinks.join('" "') + '"')ことです-そうでなければ、実際に引用符で囲まれたURLを取得しません

— dan3

1

ブラウザーにとどまる場合は、まさにこの目的のためにWeb拡張機能を作成しました-学術記事のPDFを適切にフォーマットされたタイトルで保存する機能を追加しようとしていますが、「すべてをダウンロードしたい場合は完璧です」このため。

これはTab Saveと呼ばれ、Chromeウェブストアにあります。それらをすべてタブで開くだけであれば、URLのリストを入力する必要さえありません（ただし、多数のファイルの場合、コンピューターの速度が低下する可能性があるため、独自のオプションを追加しました）。

— ルイ・マドックス
ソース

0

私は最近、これにuGet（Windows）を使用しました。GUIがあり、ダウンロードするファイルをフィルタリングできます。

それらすべてを思い出そうとして保存します

— コジタティブ
ソース

0

Google Chromeでは、次のような拡張機能を使用できます。

マスターをダウンロード

この拡張機能を使用すると、アクセスしているWebページにリンクされているすべての画像、ビデオ、pdf、doc、およびその他のファイルをダウンロードできます。

— ケノーブ
ソース

0

グーグル

Googleの検索結果に基づいてWebサイトからPDFリンクをダウンロードできるPythonツールはほとんどありません。

例えば

google_dlスクリプト（推奨）。

使用法：
```
./google_dl -s http://www.example.com/ -f pdf ""
```
gsrchDwnスクリプト（neoのスクリプトに基づく）。

使用法：
```
./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf
```

^{注：私は、上記の両方のスクリプトのメンテナーです。}

どちらもxgooglePythonライブラリを実装しています。このライブラリの私のフォークは、pkrumins/xgoogleバージョンに基づいています。

関連：LinuxコマンドラインからのWeb検索。

— ケノーブ
ソース