タグ付けされた質問 「web-crawlers」

さまざまな目的でWebページにアクセスするコンピュータープログラム(コンテンツのスクレイピング、検索エンジンへのサイト情報の提供など)

2
Disqusスレッドの移行。ゴチャ?
サイトを新しいドメインに移行しています。サイト自体は非常に単純で(Jekyllを使用しています)、Disqusスレッドの移行を除いて、すべてうまくいきました。 私は部分的に成功しました-一部のスレッドは正常に移行しましたが、すべてではありません。 私は(いくつかをキャッチした)ドメイン移行ウィザード、(いくつかをキャッチした)URLマッパー、(いくつかをキャッチした)301リダイレクトクローラーを試しました。しかし、どの方法を使用しても、残りのスレッドは移動しません。 だから、私はこれについて知っておくべき「落とし穴」があるかどうか尋ねていると思います。これらの移行ツールを実行すると、「しばらく時間がかかります」と表示されます。それは時間を意味しますか?日々?動作しているかどうかはわかりませんが、ログやエラー報告が表示されません。

2
Ask.comのサイトマップクローラーがダウンしましたか?
私はAsk.com自分のサイトマップをpingするための検索エンジンの1つとして使用しています。今日、サイトマップにpingを送信してサイトマップのインデックスを再作成したところ、ウェブサイト(http://submissions.ask.com/ping)には存在しないと表示されていますか?DNSルックアップを実行submissions.ask.comしたところAsk.com、サブドメインが削除されたようですが、ウェブサイトクローラーのFAQにまだリストされていますか?何が起こっているのか?

3
不正なロボットに対処するための戦術
規制上の理由で、インデックスに登録されない、または自動的に検索されないサイトがあります。これは、すべてのロボットを遠ざけ、サイトをスパイダーで防ぐ必要があることを意味します。 明らかに、最初からすべてを許可しないrobots.txtファイルがあります。ただし、robots.txtファイルの監視は、正常に動作するロボットだけが行うことです。最近、動作の悪いロボットにいくつかの問題がありました。いくつかのユーザーエージェントを禁止するようにApacheを構成しましたが、それを回避するのは非常に簡単です。 それで、問題は、ロボットのような動作を検出して応答するように(おそらくいくつかのモジュールをインストールすることによって)Apacheを構成するいくつかの方法がありますか?他のアイデアは? 現時点で私ができることは、ログの手動検査に基づいてIPアドレスを禁止することだけであり、これは単に実行可能な長期戦略ではありません。

2
広告を掲載していないサイトに空のads.txtファイルを公開する必要がありますか?
私が管理しているいくつかのサイトでads.txtがリクエストされたときに、いくつかの404エラーが発生しました。答えは、robots.txtファイルが空である、またはファイルがまったくないという質問と同じかもしれません(404エラーを防ぐだけです)。ただし、ads.txtの背後にある基本的な概念を理解するのに苦労しています。 たとえば、IABの公式ヘルプページは混乱しています。 「ブランドの広告主がプログラムでメディアを購入するとき、購入したURLがそれらのパブリッシャーによって合法的に販売されたという事実に依存しています。」 「広告主はメディアを購入する」というのは、魅力的なテキスト、グラフィックス、アニメーションを作成するために弁護士を雇うようなものですが、コンテキストに適合しません(プログラムでアーティストを雇うことはまずありません)。「発行元が販売したURL」は、ISPまたはICANNでのURLの登録について話しているようには見えません。パブリッシャーは通常、公開を中止しない限り、URLを販売しません。 明らかに、これは外部ドメイン固有の言語です。では、空のads.txtファイルがどのような影響を与える可能性があるかを誰かが説明できますか?いくつかの懸念があります: 広告から来ているように見える着信リンクに何らかの影響がありますか? コンテンツに記載されている製品やサービスへのリンクに影響はありますか? それは私のサイトをクモや他のクローラーのインデックス作成にとってあまり面白くしませんか?

5
Archive.isへのアクセスを拒否する
archive.is私のウェブサイトへのアクセスを拒否したいと思います。(私は私のウェブサイトが私の同意なしに私のウェブサイトをキャッシュすることを望みません)。 可能かご存知ですか?

2
どのメタ「ロボット」タグが優先されますか?
妻はドイツの高校で働いています。最近、Googleを使用してその学校のホームページを見つけるのは非常に難しいことに気付きました。ページのソースコードを見て、その理由を見つけたと思います。2つの<meta name="robots">タグがあります。一つは <meta name="robots" content="all"> そして、ページのさらに下にある2つ目は <meta name="robots" content="noindex, follow"> 私の推測では、2つ目が1つ目を上回り、Googleがサイトをインデックスに登録しないようにしています。私は正しいですか?私は問題を見つけて自分のバカを作ったことをウェブマスターに伝えたくありません(適切なウェブページを構築する方法については何も知らないので、SEOはもちろんです)。 ちなみに、万が一サイト上で他のグーフを見つけた場合は、ご報告いただければ幸いです。次の候補はmeta、ページのコンテンツに関する情報を伝える関連タグがまったくないことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.