CDに含める2つのサイトをダウンロードしようとしています。
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
私が抱えている問題は、これらが両方ともwikiであることです。例えば、ダウンロードする場合:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
...?action = edit ...?action = diff&version = ...のようなリンクもたどるので、たくさんのファイルを取得します。
誰かがこれを回避する方法を知っていますか?
画像や差分などのない現在のページが欲しいだけです。
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
これはバークレーでは機能しましたが、boinc-wiki.infoはまだ問題を引き起こしています:/
PPS:
最も関連性の高いページと思われるものを入手しました:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info