タグ付けされた質問 「internet-archive」

2
「Disallow /」だけでなく、インターネットアーカイブを制御しますか?
インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか?私は追加できるすべてのページを禁止することを知っています: User-agent: ia_archiver Disallow: / 月に1回、または年に1回サイトをクロールするようにボットに伝えることはできますか? アセットが取得されないために正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産を伝える方法はありますか?

6
archive.orgボットを適切に(拒否)する方法は?状況は変わりましたか?
検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgに永久に保存したいのですが。だから私robots.txtはこれから始めます: User-agent: * Disallow: / 今日、archive.orgによるとrobots.txt、ボットを許可するために以下を追加する必要があります: User-agent: ia_archiver Disallow: しかし、私は彼らが数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました: User-agent: archive.org_bot Disallow: 次に、上記の2つに加えてもう1 つを追加する必要があると主張する別のソースがありますDisallow。 User-agent: ia_archiver-web.archive.org Disallow: ボットにサイトをアーカイブさせたくないDisallow: /場合は、置く必要があることに注意してください。 IAボットに変更はありますか?もしそうなら、いつ? 推奨される方法は何ですか?とりあえず3つすべてを許可し、IAがボット名を今後変更しないことを望みますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.