8

archive.is私のウェブサイトへのアクセスを拒否したいと思います。（私は私のウェブサイトが私の同意なしに私のウェブサイトをキャッシュすることを望みません）。

可能かご存知ですか？

web-crawlers noarchive

— 誰か2332
ソース

6

はい。これは（少なくとも私にとっては）新しいものであり、今のところ非常に興味深いものです。これで雑草には入りません。

私がこれを書いたとき、私はほとんどまたはまったく睡眠に取り組んでいませんでした。@unorが親切に指摘してくれたいくつかのことを見逃していたので、自分の答えを調整して、クレジットの期日までにクレジットを与えなければなりません。@unorありがとうございます！

Archive.isは、46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]にありますが、ドメインツールに従って、IPアドレス104.196.7.222 [AS15169 GOOGLE-Google Inc.]でGoogleウェブホストアカウントを使用しているDenis Petrovに登録されています。ホスト企業が最近変わった可能性があります。

Archive.todayもDenis Petrovが所有しており、同一ではない場合でもArchive.isに似ています。この回答の目的のために、Archive.isについて説明します。これは、Archive.todayに適用されると想定できます。Archive.todayは別のIPアドレス78.108.190.21に存在します[AS62160 GM-AS Yes Networks Unlimited Ltd]。Denis Petrovは70のドメインを所有していることを理解してください。より深く掘り下げることなく、懸念されるサイトがさらに存在する可能性があります。3つのIPアドレスすべてにブロックコードを提供します。

Archive.isはユーザー主導です。自分のページをアーカイブすることを前提としています。このシナリオ以外では、Archive.isはコンテンツスクレイパースパムサイトと見なすことができます。

Archive.isは危険な一線を歩んでいます。単一ページのスクレイピングを通じて他のサイトのコンテンツを使用しています。最終的に、元のコンテンツの検索の可能性は少なくとも希薄化され、完全に奪われる可能性があります。さらに悪いことに、元のサイトはコンテンツの作成者として引用されていません。Archive.isは正規のタグを使用しますが、それは独自のサイト/ページに対するものです。

例： <link rel="canonical" href="http://archive.is/Eo267"/>

これは、誰がサイトを送信しているか、サイトへの権利を持っているかどうかを制御できないこと、明確な削除情報がないこと、ややあいまいで潜在的に弱い連絡メカニズムであるArchive.isが、トラブル。

IPアドレスの詳細については、https：//www.robtex.com/#！dns = archive.isをご覧ください。

IPアドレス78.108.190.21でブロックする方法。

Cisco Firewallの使用。

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

**注：[提供されたacl名]を任意のACL名に置き換えることができます。

Nginxを使用します。

nginx.confを編集し、include blockips.confを挿入します。存在しない場合。blockips.confを編集して、以下を追加します。

deny 78.108.190.21/32;

Linux IPTables Firewallの使用。**注：注意して使用してください。

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

Microsoft IIS Webサーバーの使用

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Apache .htaccessを使用します。

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

IPアドレス46.17.100.191でブロックする方法。

Cisco Firewallの使用。

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

**注：[提供されたacl名]を任意のACL名に置き換えることができます。

Nginxを使用します。

nginx.confを編集し、include blockips.confを挿入します。存在しない場合。blockips.confを編集して、以下を追加します。

deny 46.17.100.191/32;

Linux IPTables Firewallの使用。**注：注意して使用してください。

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

Microsoft IIS Webサーバーの使用

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Apache .htaccessを使用します。

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

IPアドレス104.196.7.222でブロックする方法。

Cisco Firewallの使用。

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

**注：[提供されたacl名]を任意のACL名に置き換えることができます。

Nginxを使用します。

nginx.confを編集し、include blockips.confを挿入します。存在しない場合。blockips.confを編集して、以下を追加します。

deny 104.196.7.222/32;

Linux IPTables Firewallの使用。**注：注意して使用してください。

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

Microsoft IIS Webサーバーの使用

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Apache .htaccessを使用します。

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

コードのセットから複数のIPアドレスをブロックする必要がある場合があります。それは明確ではありません。

— クローゼット
ソース

とても有益です！100％同意しますが、このウェブサイトはより多くのIPアドレスを使用しています。訪問者のIPを提供するページ（wtfismyip.com/など）をアーカイブすると、これに気づきます。これまでのところ、2a01：4f8：190：5388 :: 2：2、2a01：4f8：190：6388 :: 2：2、2a01：4f8：190：638c :: 2：2、46.17.100.191、78.46が見つかりました。 .174.144、78.108.190.21、104.196.7.222

— someone2332

別のもの：2a01：4f8：190：6396 :: 2：2。「2a01：4f8：190：」で始まるすべてのIPv6アドレスをブロックしたいと思います。私がそれをどうやってできるか知っていますか？ありがとうございました！

— someone2332

1年前にこの問題に直面したとき、私はDenisに著作権侵害通知をwebmaster-at-archive-dot-isにメールで送信し、翌日すべての問題のあるコンテンツが削除されたことを嬉しく思いました。これを別の回答として投稿するつもりでしたが、彼のサイトを確認したところ、私のコンテンツが復活しました。私は今、故意の故意の著作権侵害の確かな証拠を持っています。ああ、それはIPTablesです。彼は昨年OVHに所属しており、彼らは過去の問題に非常に役立ちましたが、彼が今どこでホストされているのかはわかりません。

— Tom Brossman、2015

また、昨年1月のスーパーユーザーからのこの関連Q＆Aを参照してください：superuser.com/a/868368（当時使用されていたさまざまなIPに注意してください。そのため、効果を維持するには、ブロックリストを常に監視および更新する必要があります...）。

— トムBrossman

1

「同様のサイトであるArchive.orgは何度も訴えられて紛失している」どのケースを参照しますか？グーグルarchive.org loses copyright lawsuitは判決に関連する記事を出さなかったようだ。

— Damian Yerrick

3

`robots.txt`

Archive.isは、ページを自律的にクロールするボット（ハイパーリンクをたどるなど）を使用robots.txtしないため、適用されません。特定のページをアーカイブするコマンドを与えるのは常にユーザーだからです。

同じ理由で、GoogleのFeedfetcher（Feedfetcherがrobots.txtファイルに従っていないのはなぜですか？）やW3Cのバリデーター（詳細）などのサービスが従いませんrobots.txt。

archive.isのFAQを参照してください。archive.isがrobots.txtに従わないのはなぜですか？

`meta`- `robots`/`X-Robots-Tag`

archive.isが- /のnoindexorのnoarchive値を（理想的には）尊重する必要があるのか、またはこれらのテクノロジーが自律型ボットにのみ適用されるのかはわかりません。しかし、archive.isはそれを文書化していないので、彼らは現在それをサポートしていないようです。metarobotsX-Robots-Tag

（FWIW、アーカイブされた各ページに<meta name="robots" content="index,noarchive"/>。が表示されるようです。）

`User-Agent`

archive.isは、特定のものUser-Agentが使用されていることを文書化していないため（通常のブラウザーで表示されているかのようにページを取得するために、それらを識別できない可能性があります）、サーバーレベルでのアクセスをブロックするために使用することはできません。。

IPアドレスをブロックする

だから、どちらとしてrobots.txtもmeta- robots/ X-Robots-Tagここでの仕事、そしてあなたが彼らを経由して、それらをブロックすることはできませんUser-Agent、あなたはarchive.isのIPアドレスからのアクセスをブロックする必要があります。IPブロッキングに関するclosetnocの回答を参照してください。ただし、意図した以上にブロックされる可能性があり、すべてのIPをキャッチすることができない（および/または最新の状態に保つ）ことに注意してください。

補足：レポート機能

アーカイブされた各バージョンは/abuse、たとえば「SEOの問題」または「著作権」の理由など、悪用の可能性を報告（追加）できるフォームにリンクしています。しかし、私は彼らがこれらのケースを処理するかどうか、またはどのように処理するかわかりません。

— unor
ソース

私はまったくまたはほとんど睡眠をとっていなかったので、あなたが正しく指摘しているいくつかのことを完全に逃しました。その結果、私は私の答えを和らげました。ああ！私は時々できるので少し夢中になりました。;-)おっとっと！それはまだ少し上にあります。ここであなたの答えに感謝します。私はこれをトップの答えにするために賛成票を投じることを望みます。私の意見に同意する場合は、マウスでこの回答に投票することをお勧めします。

— closetnoc 2015

1

archive.isの嫌な窃盗行為（robots.txtを無視、リンクの正規、偽のユーザーエージェントを上書き、サイト全体の削除を実行する方法がない）をブロックするには、上記のソリューションに以下を追加します。

彼らのIPアドレスを見つける

それらのIPアドレスを見つけるには、管理下にあるURLを送信して、Webサーバーのログを監視してだれがそのURLにアクセスしたかを確認できるようにします。Webサーバーがリクエストを受信する限り、URLは存在する必要もありません。（したがって、存在しない空のページ/ URLを使用することをお勧めします。）たとえば、http：//example.com/fuck-you-archive.isのようなURLを使用します。

次に、ログをチェックして、URLにアクセスしたユーザーを確認します。あなたはそれをチェックするためにgrepを使うことができます：

grep "fuck-you-archive.is" web-server-log.txt

IPアドレスを取得したら、他の回答のソリューションを使用してそれをブロックできます。その後、プロセスを繰り返して、使用している他のIPアドレスを見つけます。別のURLを指定して、HTTPリクエストを再度実行させる必要があります。たとえば、単にhttp://example.com/fuck-you-archive.isをhttp://example.com/fuck-you-に変更します。 archive.is?2など

IPアドレスを見つけようとするときにWebサイトをまったく公開したくない場合は、次の便利なHTTPリクエストWebサイトを使用できます。https ://requestb.in実行する手順は次のとおりです。 BinURLに「？SomeRandomNumber」を追加して「BinURL」をArchive.isに送信します。RequestBinの「？inspect」を使用してArchive.isからの着信要求を監視し、「Cf-Connecting-Ip」でIPアドレスを確認します"HTTPヘッダー。（「？inspect」URLをArchive.isに送信しないようにしてください。）繰り返して、「？SomeRandomNumber」を別の番号に変更して、他のIPアドレスを見つけます。

IPアドレスをブロックする

IPテーブルを使用すると、ブロックできることに注意してください。

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

しかし、多くの場合、「INPUT」チェーンは、HTTPトラフィックを受け入れる「DROP」ポリシーに設定されています。その場合は、追加操作の代わりにプリペンド（挿入）操作を使用する必要があります。そうしないと、まったくブロックされません。

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

ただし、IPアドレスが多数あるため、完全なIP範囲をブロックする方が簡単な場合があります。これは、（サブネットマスクを指定する必要がない）IPTablesを使用して、次のように簡単に行うことができます。

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

この範囲（46.166.139.110-46.166.139.180）は、46.166.139.110と46.166.139.173の間の複数のアドレスを見たので、それらが所有する大部分のものです。

不正行為の苦情をWebホストに送信する

彼らは現在、NFOrceをWebホストとして使用しています。Archive.isについて申し立てを行う方法については、https：//www.nforce.com/abuseを参照してください。言及：1）archive.isが盗まれたWebページのURL、2）盗まれたコンテンツを含むarchive.isのURLに言及、および3）彼らが使用したIPアドレスに言及

また、パフォーマンス上の理由で盗まれたページと画像をキャッシュするCDNであるCloudflareに文句を言うこともできます。https://www.cloudflare.com/abuse/

— Devabc
ソース

1

ご覧のとおり、archive.isはDNSエニーキャスティングを使用しています。

異なるネームサーバーを使用している場合（例：https : //www.lifewire.com/free-and-public-dns-servers-2626062）、現在（2018-09-10）「archive.is」（ @NAMESERVER archive.is A）を掘る

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

私はabuse-contacts.abusix.org（https://www.abusix.com/contactdb）を使用して、これらのIPアドレスの悪用連絡先を取得しました。

abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru

Cloudflareが報告したように、archive.isは、機能のないDNS Aレコードを使用して「サービス」を悪用しています。

— シュビドゥア
ソース

0

また、アイスランドのドメインレジストリであるwww.isnic.isのレジストラへの連絡も検討してください。isnic at isnic dot is

アイスランドには著作権法があり、レジストリはそれを認めています。レジストリは1980年代後半から存在しており、ICANNの傘下にはありません。

— 著作権を尊重する
ソース

Archive.isへのアクセスを拒否する

IPアドレス78.108.190.21でブロックする方法。

IPアドレス46.17.100.191でブロックする方法。

IPアドレス104.196.7.222でブロックする方法。

robots.txt

meta- robots/X-Robots-Tag

User-Agent

IPアドレスをブロックする

補足：レポート機能

彼らのIPアドレスを見つける

IPアドレスをブロックする

不正行為の苦情をWebホストに送信する

`robots.txt`

`meta`- `robots`/`X-Robots-Tag`

`User-Agent`