wgetのmanページで参照されている「自動検索プログラム」をブロックするための「2001年の記事」とは何ですか?


11

wgetmanページはのためのセクションの下に、これを述べている--random-waitパラメータ:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

この記事のコピーを入手して読みたいのですが、インターネットで何度も検索して記事を特定しました。ただし、これらの検索で見つけられるのwgetは、さまざまなWebサイトでホストされているmanページだけです。このトピックとはまったく関係のない他のいくつかの研究論文。

誰がどの記事が参照されているのか、どこでコピーを入手できるのか知っていますか?


私はwgetメーリングリストを調べていた
html

回答:


15

にもかかわらずない直接の回答、git blameおよびgit logこのセクションはコミットで導入されたことを明らかにした2c41d783を呼ばコミッターでhniksicHrvojeニクシッチであることが判明し、。彼のメールアドレスはwgetのChangeLogファイルにあります(明らかな理由のため、ここでは公開しません)。彼はより適切な答えを出すのに最適かもしれないので、彼に直接尋ねることをお勧めします。その間、マンページを適宜更新するかどうかを彼に尋ねることを検討するかもしれません。;)


4

私はそれがこの記事かもしれないと思います:

基本SASを使用してWebログから意味のあるデータを作成する

クラスCの範囲のブロックについて説明する段落があります。

IPアドレスがコンポーネントに分離されると、IPアドレスの範囲のフィルタリングは簡単です。クラスBフィルターは、最初の2つのオクテット(168.126.xx.xxなど)に対して実行されます。これは、上記のコード例では変数Onetwoです。クラスCの範囲は、サーバー全体を対象とし、4つのオクテットのうち3つを使用するため、より一般的に使用されます(例:168.126.56.xx)。上記のコードサンプルでは、​​UsrhostがWebログのTCP / IPアドレス値である場合、これはフィールドThreeです。

そしてwget、ユーザーエージェントの文字列ベースのブロッキングで言及したもの:

ユーザーエージェント文字列の識別に推奨される方法では、インデックスパターンマッチング機能を利用します。例えば:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

2001年の「ログ分析wget」のグーグルで 5番目の結果でした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.