ウェブマスター internet-archive

「Disallow /」だけでなく、インターネットアーカイブを制御しますか？

インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか？私は追加できるすべてのページを禁止することを知っています： User-agent: ia_archiver Disallow: / 月に1回、または年に1回サイトをクロールするようにボットに伝えることはできますか？アセットが取得されないために正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産を伝える方法はありますか？

13 cache internet-archive

archive.orgボットを適切に（拒否）する方法は？状況は変わりましたか？

検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgに永久に保存したいのですが。だから私robots.txtはこれから始めます： User-agent: * Disallow: / 今日、archive.orgによるとrobots.txt、ボットを許可するために以下を追加する必要があります： User-agent: ia_archiver Disallow: しかし、私は彼らが数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました： User-agent: archive.org_bot Disallow: 次に、上記の2つに加えてもう1 つを追加する必要があると主張する別のソースがありますDisallow。 User-agent: ia_archiver-web.archive.org Disallow: ボットにサイトをアーカイブさせたくないDisallow: /場合は、置く必要があることに注意してください。 IAボットに変更はありますか？もしそうなら、いつ？推奨される方法は何ですか？とりあえず3つすべてを許可し、IAがボット名を今後変更しないことを望みますか？

10 web-crawlers robots.txt internet-archive

タグ付けされた質問 「internet-archive」

タグ付けされた質問「internet-archive」