Webページのすべての外部リンクを抽出してファイルに保存するにはどうすればよいですか？

すばらしいコマンドラインツールがある場合。

linux command-line

— ロジェリオ
ソース

回答:

lynxとawkの 2つのツールが必要です。これを試してください。

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

行に番号を付ける必要がある場合は、コマンドnlを使用して、これを試してください。

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

— イールトン
ソース

これは相対URLでは機能しないと思います

— Sridhar Sarnobat

ここにleltonの答えの改善があります。lynxにはいくつかの便利なオプションがあるので、awkはまったく必要ありません。

lynx -listonly -nonumbers -dump http://www.google.com.br

数字が欲しいなら

lynx -listonly -dump http://www.google.com.br

— マックス
ソース

画面スクレイピングのテクニックよりも美しいスープをお勧めします。

— ウェズリー
ソース

コマンドラインが強制ではない場合は、すべてのリンクをコピー Firefox拡張機能を使用できます。

— マジッド・アジミ
ソース

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。

Licensed under cc by-sa 3.0 with attribution required.