タグ付けされた質問 「web-scraping」

7
Webサイトをクロールするときに善良な市民になるには?
さまざまな公開Webサイトをクロールし、それらのデータを処理/集約する機能を開発します。電子メールアドレスを探すことほど厄介なことはありません。実際、サイトへのトラフィックを実際に増やす可能性があるものです。しかし、私は脱線します。 敬意以外robots.txtに、(a)悪意のあるように見えて禁止されている可能性を回避し、(b)サイト所有者/ウェブマスターに問題を引き起こさないために、従うべきルールまたはガイドラインはありますか? 私が考えることができるいくつかの例は重要かもしれないしそうでないかもしれません: 並列リクエストの数 リクエスト間の時間 クロール全体の時間 潜在的に破壊的なリンクの回避(スパイダーオブドゥームになりたくない-しかし、これが実用的かどうかを知っている人) しかし、それは実際には単なる吐き出しです。クモを書いたり利用したりしようとする人に広く適用できる実証済みの知恵はありますか?

4
.Net(C#)でのWebスクレイピングのパターンと実践[終了]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 外部のWebサイト/アプリケーションを自動化するためのアプリケーションを作成します。場合によっては、ユーザーと同じようにサイトをナビゲートする必要があります(たどる必要があるリンクは予測できず、応答から解析する必要があります) 私はすでにHtml Agility Packを使用しており、それが必要な場合はTidyを認識しています。 他に知っておくべき技術はありますか? 外部Webアプリが変更された場合にすばやく調整できる推奨パターンはありますか?応答の検証を、必要に応じて簡単に分離/プラグインできる、ある種の戦略または同様のパターンとしてカプセル化することを想定していますが、具体的な提案があればすばらしいでしょう。
9 c#  .net  html  web-scraping 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.