回答:
サイトはGoogleによってインデックス化されていますか?検索するだけsite:www.example.com filetype:pdf
で、そのサイトでインデックス付けされたすべてのPDFファイルが返されます。
例: site:en.wikipedia.org filetype:pdf
別の方法は、wgetを使用することです。wgetは、* nixコマンドラインツールですが、Windowsで使用できます。再帰モードを使用し、pdfファイルのみを保存するように指定すると、サイトを横断してすべてのPDFを見つけることができます。
wget.exe -r -A pdf -np http://www.example.com/
example.comからすべてのPDFファイルを再帰的にダウンロードし、親ディレクトリに移動しようとしません(特定のサブディレクトリで開始する場合にのみ関連します)。
特定のファイルタイプでWGETを使用して実際にテストしたことはありませんが、以前に再帰的なダウンロードを行ったことがあり、正常に機能しているので、試してみてください。
Javaに精通している場合はJava HTMLパーサー、Pythonに精通している場合はBeautifulSoupを使用することをお勧めします。
次に行う再帰的なメソッドを書く:
そんな感じ。