Webページのすべての外部リンクを抽出してファイルに保存するにはどうすればよいですか?


11

Webページのすべての外部リンクを抽出してファイルに保存するにはどうすればよいですか?

すばらしいコマンドラインツールがある場合。

回答:


18

lynxawkの 2つのツールが必要です。これを試してください。

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

行に番号を付ける必要がある場合は、コマンドnlを使用して、これを試してください。

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

これは相対URLでは機能しないと思います
Sridhar Sarnobat

8

ここにleltonの答えの改善があります。lynxにはいくつかの便利なオプションがあるので、awkはまったく必要ありません。

lynx -listonly -nonumbers -dump http://www.google.com.br

数字が欲しいなら

lynx -listonly -dump http://www.google.com.br

0
  1. 使用美しいスープを該当のWebページを取得するために。
  2. awkを使用して、ドメインを参照していないすべてのURLを検索します

画面スクレイピングのテクニックよりも美しいスープをお勧めします。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.