ユーザ名とパスワードを持つwgetのフォーラムをダウンロードしますか?


4

自分のユーザー名とパスワードでしかアクセスできないフォーラムをダウンロードしたいです。

私は以下を試しました:

C:\wget.exe wget -k -m -E -p -np -R viewtopic.php*p=*,memberlist.php*,faq.php*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.myforum1234.com/forum/categories/discussions

だから、これは私が私のCMDに入力するコマンドです。私はwget.exeをクリックすると黒いウィンドウが表示されますが、非常に速く消えるので。しかし、これも正しい方法だと思います(私はWindows XPを使用しています)。

私の問題はそれがログインできなかったので結果がwgetがフォーラムをダウンロードできなかったことを示すことです。そのため、ログインページが表示(ダウンロード)されますが、それ以上はありません。私がコマンドを実行したとき、私はログインしていました。

私はwgetのプロではありません、それで私の命令が正しいかどうかわからないのですか?私はこれを他の記事からコピーしました。シンプルな C:\wget.exe wget http://www.theforumurl.com 動作しませんでした。

編集

私も今やってみました

C:\wget.exe wget -k -m -E -p -np -R *start=0* -o log.txt http://www.myforum.com/forum/categories/discussions

しかし、ここでも同じ問題があります。

第2版 最初のコメントのリンクについて:

私は今やった

C:\wget.exe wget -k -m -E -p -np -R *start=0* -o log.txt http://www.myforum.com/forum/categories/discussions --post-data="username&password=1234"

しかし、もう一度、同じ問題です!

ログインボタンにカーソルを合わせると、次のURLが表示されます。

http://www.myforum.com/user/popupLogin

これを使う必要がありますか?

第3版

また、www。の前にusername:password @を追加しようとしました。

C:\wget.exe wget -k -m -E -p -np -R  *start=0* -o log.txt http://user:passw@www.myforum.com/forum/categories/

結果は同じです、私はログインがうまくいかなかったことがわかります。

第4回編集

によると私も試してみました このスレッド

C:\wget.exe wget --save-cookies cookies.txt --post-data 'user=usern&password=passw' http://www.myforum.com/user/popupLogin

C:\wget.exe wget --load-cookies cookies.txt -p http://www.myforum.com/forum/categories/

しかし、もう一度、同じ問題!

第5回編集

ログインボタンのソースコードを分離したと思います。

<div class="forumSignup">
          <a href="http://www.myforum.com/user/popupLogin" class="Button SignInPopup">Login</a> </div>

第6回編集

私はまたHTTrackでそれを試してみましたが、問題は同じです:ログインが機能しません。もう1つの問題は、フォーラムitslefがwww.mywebsite.com/forumというURLを使用しているが、www.mywebsite.comにはログインが必要であることです。だから私が使用するとき。ユーザー名のようなもの:pass@www.mywebsite.com mywebsiteはキャプチャされますが、フォーラムはキャプチャされません。 username @ pass@www.mywebsite.com/forumを使用すると、ログインが機能せず、何もキャプチャされません。


私はかつてフォーラムをダウンロードするためにいくつかのフォーラムソフトウェアを使用しました。できるかどうか、あるいはいつでもできるかどうかはわかりませんが、これが役立つ場合があります stackoverflow.com/questions/5051153/…
barlop

フォーラムとその両方をダウンロードすることが本当に重要な場合 wget そして httrack 失敗する可能性があります。おそらくSeleniumの使用を検討する時が来たでしょう。
guaka

回答:


2

まず第一に、あなたがするだろう C:\wget.exe -k -m …繰り返さない wget 名。

フォーラムへのログインは複雑に思えるので(単純なサイトでも複雑になる可能性があります)、最善の解決策はおそらくブラウザでログインしてからクッキーを* wgetに渡すことです(ファイルに入れて使用する)。 --load-cookies または直接それらを渡します --header "Cookie: name=value"

*それらを抽出する方法は、ブラウザによって少し異なります。


0

Wgetの解釈 <pass>@serveraddress スポーツ。

ユーザー名とパスワードを指定するには、 --user そして --password スイッチ:

wget --user username --password passw http://...

0

を使用してログインでサイトをミラーリングするのは難しいです wget。使用するには専門知識が必要です wget。現在あなたはユーザー名とパスワード、クッキー、そして必要なスイッチを渡します。
やるべきこと
1.再帰的にページをダウンロードするとWebサーバがあなたのIPアドレスをブラックリストに追加するように強制するので、すべてが朝方になるまでミラーリングを避けてください。 (単一ページを保存してみてください)
ほとんどのWebフォーラムはダウンロードマネージャを嫌うようにブラウザとして偽のwget。見る この より多くの情報のために答えなさい。

最善の解決策

この種のサイトを反映するための最善かつ最も簡単な方法は**を使うことです。 スクラップブック **これはFirefoxのプラグインです。 Firefoxを起動してサイトにログインし、右クリックしてください - &gt;ページを名前を付けて保存し、ドメインでフィルタします。見る この サイトを効率的にミラーリングするための回答。


1
リンクされたページは将来変更されたり消えたりする可能性があるので、リンクオンリーアンサーはSUでは受け入れられません。答えにもっと情報を加えてください。
harrymc

あなたの助けを本当にありがとう、私は今スクラップブックを試しました。残念ながら、ここでHTTrackと同じ問題が発生します。数ページを保存した後、www.myurl.com/example1またはwww.myurl.com/example2からページが保存されますが、フォーラムだけが必要です。 myurl.com/forumとそこへのリンク、例えばwww.myurl.com/forum/discussion1またはwww.myurls.com/forum/whatsnew。リンクの深さを制限してもフォーラムのスレッドの深さも切り取られるので、これは役に立ちませんが、ここではすべての投稿にすべてのスレッドが必要です。
Stat Tistician

スクラップブックを特定のサブカテゴリに限定する方法を見つけました。だから私もそれを制限することができます/フォーラム。残念ながら、リンクは正しく保存されていませんか?だから私はスタートページを開いたときにすべてが正しいです。私は自分自身がログインしているのを見て、フォーラムでスレッドを見ることができます。私が今スレッドのリンクを見ると、スクラップブックがこのリンクを私のオフラインの目的地に正しくリンクしているのがわかります。 C:/ sb /などのように。クリックすると、オフラインページにもリダイレクトされます。このページはC:/../ discussions.htmlや/whatsnew.htmlのように正しい名前ですが、myforumurl.comのスタートページが表示されますか。
Stat Tistician

フォーラムスレッドはありませんが、代わりにregualr myforumurl.comスタートページはありますか。つまり、フォーラムの実際の概要が記載されているmyforumurl.com/forumのようなフォーラム開始ページではなく、他の(誤った)myforumurl.com Webページもあります。これは私がクリックしたすべてのリンクで同じです。それではどういうわけかスクラップブックは厳密なページを得ませんでしたか?ここで問題は何ですか?よくわかりませんが、ログオフボタンが問題になる可能性がありますか?そのスクラップブックはログアウトボタンをたどってログオフしますか?いいえ、私はそれをチェックしたとき、私はまだ後でログインしているので、だと思いますか?
Stat Tistician

ミラーリングしている間は、Webサイトは安全ではないと感じ、攻撃者として扱っています。それで、あなたのミラーリングを遅くすることを試みなさい、毎分5ページを言う。これはあなたのインターネット速度を遅らせる/抑制することによって達成することができます。 Linuxの場合 wondershaper
totti

0

ブラウザのCookieデータにアクセスできる場合(Firefoxではオプション - >プライバシーの下に独自のCookieブラウザがありますが、この作業を容易にするためのプラグインがあります)、フォーラムに手動ログインしてそのドメインのすべてのCookieを検索します。そしてそれらをcookies.txtファイルに保存してください、おそらくあなたの前のコマンドでうまくいくでしょう:

C:\wget.exe wget --load-cookies cookies.txt -p http://www.myforum.com/forum/categories/

ログインページによっては、1つのコマンドラインでタスクを実行しようとするには複雑すぎる場合があります。

ドメイン全体のCookieをすべて含めることを忘れないでください(「www.myforum.com」だけでなく「myforum.com」を検索してください)。


ログインして[オプション]、[プライバシー]、[Cookieの表示/表示]の順にクリックした後、Cookieが表示されません。グーグルとユーチューブだけのために、しかしmyforum.comまたはこのような何かのためにではない?
Stat Tistician

クッキーとして(最近では最も一般的になっている)、あるいは次のように書くことによって、どんなログインでもクライアント側で追跡し続けなければならないので、それはかなり奇妙です。 ?sessionid=XXXXXXX URLの末尾に。その場合は、それを直接wgetに渡すことができます。
NuTTyX

私がログインした後でも、 myforum.com/forum/categories/discussions 表示されるので、セッションIDはありません。私が言ったように、私がエキストラ、設定、プライバシー、表示/表示クッキーをクリックするとき、ただグーグルとユーチューブのためにある。
Stat Tistician

私は本当に手助けをしたいのですが、ログインを要求するがセッションを維持するためにcookieやURLパラメータを使用しないサイトは考えられません。プロキシを使用することをお勧めします(BURPのように: portswigger.net/burp/downloadfree.html )ログインがどのように行われたかを捉えるために(あなたが容易に見つけることができるPOSTメソッドであるべきです)。このプロキシはサーバーから送信されたクッキーにもマークを付けますので、wgetコマンドで再利用することもできます。
NuTTyX
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.