回答:
はい。これは(少なくとも私にとっては)新しいものであり、今のところ非常に興味深いものです。これで雑草には入りません。
私がこれを書いたとき、私はほとんどまたはまったく睡眠に取り組んでいませんでした。@unorが親切に指摘してくれたいくつかのことを見逃していたので、自分の答えを調整して、クレジットの期日までにクレジットを与えなければなりません。@unorありがとうございます!
Archive.isは、46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]にありますが、ドメインツールに従って、IPアドレス104.196.7.222 [AS15169 GOOGLE-Google Inc.]でGoogleウェブホストアカウントを使用しているDenis Petrovに登録されています。ホスト企業が最近変わった可能性があります。
Archive.todayもDenis Petrovが所有しており、同一ではない場合でもArchive.isに似ています。この回答の目的のために、Archive.isについて説明します。これは、Archive.todayに適用されると想定できます。Archive.todayは別のIPアドレス78.108.190.21に存在します[AS62160 GM-AS Yes Networks Unlimited Ltd]。Denis Petrovは70のドメインを所有していることを理解してください。より深く掘り下げることなく、懸念されるサイトがさらに存在する可能性があります。3つのIPアドレスすべてにブロックコードを提供します。
Archive.isはユーザー主導です。自分のページをアーカイブすることを前提としています。このシナリオ以外では、Archive.isはコンテンツスクレイパースパムサイトと見なすことができます。
Archive.isは危険な一線を歩んでいます。単一ページのスクレイピングを通じて他のサイトのコンテンツを使用しています。最終的に、元のコンテンツの検索の可能性は少なくとも希薄化され、完全に奪われる可能性があります。さらに悪いことに、元のサイトはコンテンツの作成者として引用されていません。Archive.isは正規のタグを使用しますが、それは独自のサイト/ページに対するものです。
例: <link rel="canonical" href="http://archive.is/Eo267"/>
これは、誰がサイトを送信しているか、サイトへの権利を持っているかどうかを制御できないこと、明確な削除情報がないこと、ややあいまいで潜在的に弱い連絡メカニズムであるArchive.isが、トラブル。
IPアドレスの詳細については、https://www.robtex.com/#!dns = archive.isをご覧ください。
Cisco Firewallの使用。
access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any
**注:[提供されたacl名]を任意のACL名に置き換えることができます。
Nginxを使用します。
nginx.confを編集し、include blockips.confを挿入します。存在しない場合。blockips.confを編集して、以下を追加します。
deny 78.108.190.21/32;
Linux IPTables Firewallの使用。**注:注意して使用してください。
/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP
Microsoft IIS Webサーバーの使用
<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
</conditions>
<action type="AbortRequest" />
</rule>
Apache .htaccessを使用します。
RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]
Cisco Firewallの使用。
access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any
**注:[提供されたacl名]を任意のACL名に置き換えることができます。
Nginxを使用します。
nginx.confを編集し、include blockips.confを挿入します。存在しない場合。blockips.confを編集して、以下を追加します。
deny 46.17.100.191/32;
Linux IPTables Firewallの使用。**注:注意して使用してください。
/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP
Microsoft IIS Webサーバーの使用
<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
</conditions>
<action type="AbortRequest" />
</rule>
Apache .htaccessを使用します。
RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]
Cisco Firewallの使用。
access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any
**注:[提供されたacl名]を任意のACL名に置き換えることができます。
Nginxを使用します。
nginx.confを編集し、include blockips.confを挿入します。存在しない場合。blockips.confを編集して、以下を追加します。
deny 104.196.7.222/32;
Linux IPTables Firewallの使用。**注:注意して使用してください。
/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP
Microsoft IIS Webサーバーの使用
<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
</conditions>
<action type="AbortRequest" />
</rule>
Apache .htaccessを使用します。
RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]
コードのセットから複数のIPアドレスをブロックする必要がある場合があります。それは明確ではありません。
archive.org loses copyright lawsuit
は判決に関連する記事を出さなかったようだ。
robots.txt
Archive.isは、ページを自律的にクロールするボット(ハイパーリンクをたどるなど)を使用robots.txt
しないため、適用されません。特定のページをアーカイブするコマンドを与えるのは常にユーザーだからです。
同じ理由で、GoogleのFeedfetcher(Feedfetcherがrobots.txtファイルに従っていないのはなぜですか?)やW3Cのバリデーター(詳細)などのサービスが従いませんrobots.txt
。
archive.isのFAQを参照してください。archive.isがrobots.txtに従わないのはなぜですか?
meta
- robots
/X-Robots-Tag
archive.isが- /のnoindex
orのnoarchive
値を(理想的には)尊重する必要があるのか、またはこれらのテクノロジーが自律型ボットにのみ適用されるのかはわかりません。しかし、archive.isはそれを文書化していないので、彼らは現在それをサポートしていないようです。meta
robots
X-Robots-Tag
(FWIW、アーカイブされた各ページに<meta name="robots" content="index,noarchive"/>
。が表示されるようです。)
User-Agent
archive.isは、特定のものUser-Agent
が使用されていることを文書化していないため(通常のブラウザーで表示されているかのようにページを取得するために、それらを識別できない可能性があります)、サーバーレベルでのアクセスをブロックするために使用することはできません。 。
だから、どちらとしてrobots.txt
もmeta
- robots
/ X-Robots-Tag
ここでの仕事、そしてあなたが彼らを経由して、それらをブロックすることはできませんUser-Agent
、あなたはarchive.isのIPアドレスからのアクセスをブロックする必要があります。IPブロッキングに関するclosetnocの回答を参照してください。ただし、意図した以上にブロックされる可能性があり、すべてのIPをキャッチすることができない(および/または最新の状態に保つ)ことに注意してください。
アーカイブされた各バージョンは/abuse
、たとえば「SEOの問題」または「著作権」の理由など、悪用の可能性を報告(追加)できるフォームにリンクしています。しかし、私は彼らがこれらのケースを処理するかどうか、またはどのように処理するかわかりません。
archive.isの嫌な窃盗行為(robots.txtを無視、リンクの正規、偽のユーザーエージェントを上書き、サイト全体の削除を実行する方法がない)をブロックするには、上記のソリューションに以下を追加します。
それらのIPアドレスを見つけるには、管理下にあるURLを送信して、Webサーバーのログを監視してだれがそのURLにアクセスしたかを確認できるようにします。Webサーバーがリクエストを受信する限り、URLは存在する必要もありません。(したがって、存在しない空のページ/ URLを使用することをお勧めします。)たとえば、http://example.com/fuck-you-archive.isのようなURLを使用します。
次に、ログをチェックして、URLにアクセスしたユーザーを確認します。あなたはそれをチェックするためにgrepを使うことができます:
grep "fuck-you-archive.is" web-server-log.txt
IPアドレスを取得したら、他の回答のソリューションを使用してそれをブロックできます。その後、プロセスを繰り返して、使用している他のIPアドレスを見つけます。別のURLを指定して、HTTPリクエストを再度実行させる必要があります。たとえば、単にhttp://example.com/fuck-you-archive.isをhttp://example.com/fuck-you-に変更します。 archive.is?2など
IPアドレスを見つけようとするときにWebサイトをまったく公開したくない場合は、次の便利なHTTPリクエストWebサイトを使用できます。https ://requestb.in実行する手順は次のとおりです。 BinURLに「?SomeRandomNumber」を追加して「BinURL」をArchive.isに送信します。RequestBinの「?inspect」を使用してArchive.isからの着信要求を監視し、「Cf-Connecting-Ip」でIPアドレスを確認します"HTTPヘッダー。(「?inspect」URLをArchive.isに送信しないようにしてください。)繰り返して、「?SomeRandomNumber」を別の番号に変更して、他のIPアドレスを見つけます。
IPテーブルを使用すると、ブロックできることに注意してください。
/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP
しかし、多くの場合、「INPUT」チェーンは、HTTPトラフィックを受け入れる「DROP」ポリシーに設定されています。その場合は、追加操作の代わりにプリペンド(挿入)操作を使用する必要があります。そうしないと、まったくブロックされません。
/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP
ただし、IPアドレスが多数あるため、完全なIP範囲をブロックする方が簡単な場合があります。これは、(サブネットマスクを指定する必要がない)IPTablesを使用して、次のように簡単に行うことができます。
iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP
この範囲(46.166.139.110-46.166.139.180)は、46.166.139.110と46.166.139.173の間の複数のアドレスを見たので、それらが所有する大部分のものです。
彼らは現在、NFOrceをWebホストとして使用しています。Archive.isについて申し立てを行う方法については、https://www.nforce.com/abuseを参照してください。言及:1)archive.isが盗まれたWebページのURL、2)盗まれたコンテンツを含むarchive.isのURLに言及、および3)彼らが使用したIPアドレスに言及
また、パフォーマンス上の理由で盗まれたページと画像をキャッシュするCDNであるCloudflareに文句を言うこともできます。https://www.cloudflare.com/abuse/
ご覧のとおり、archive.isはDNSエニーキャスティングを使用しています。
異なるネームサーバーを使用している場合(例:https : //www.lifewire.com/free-and-public-dns-servers-2626062)、現在(2018-09-10)「archive.is」( @NAMESERVER archive.is A)を掘る
104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236
私はabuse-contacts.abusix.org(https://www.abusix.com/contactdb)を使用して、これらのIPアドレスの悪用連絡先を取得しました。
abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru
Cloudflareが報告したように、archive.isは、機能のないDNS Aレコードを使用して「サービス」を悪用しています。