タグ付けされた質問 「screen-scraping」

26
サイトのスクレイピングを防ぐにはどうすればよいですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 この質問を改善する 大規模なアーティストデータベースを備えたかなり大きな音楽ウェブサイトを持っています。私は他の音楽サイトが私たちのサイトのデータをかき集めていることに気づきました(私はダミーのアーティスト名をあちこちに入力してから、それらをgoogle検索します)。 画面の削れを防ぐにはどうすればよいですか?可能ですか?

10
PythonによるWebスクレイピング[終了]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 10か月前に閉鎖。 この質問を改善する Webサイトから毎日の日の出/日の入り時刻を取得したいのですが。PythonでWebコンテンツをスクレイピングすることは可能ですか?使用されているモジュールは何ですか?チュートリアルはありますか?

8
scrapyを使用して、AJAXを使用しているWebサイトから動的コンテンツをスクレイピングできますか?
私は最近Pythonを学習しており、ウェブスクレイパーの構築に手を注いでいます。それはまったく派手なことではありません。その唯一の目的は、賭けのWebサイトからデータを取得し、このデータをExcelに入れることです。 問題のほとんどは解決可能であり、私は少し混乱しています。しかし、私は1つの問題について大きなハードルを突きつけています。サイトが馬のテーブルをロードし、現在の賭けの価格をリストしている場合、この情報はどのソースファイルにもありません。手がかりは、このデータが時々ライブであり、いくつかのリモートサーバーから明らかに数値が更新されていることです。私のPCのHTMLには、サーバーが私が必要とするすべての興味深いデータを押し通している穴があります。 現在、動的Webコンテンツの経験は少ないので、これは頭を悩ませるのに苦労しています。 私はJavaまたはJavascriptが鍵だと思います。これは頻繁に現れます。 スクレーパーは単にオッズ比較エンジンです。一部のサイトにはAPIがありますが、APIがないサイトにはこれが必要です。Python 2.7でスクレイピーライブラリを使用しています この質問の記述が多すぎると申し訳ありません。要するに、私の質問は、私が使用できるように、scrapyを使用してこの動的データをスクレイピングする方法を教えてください。このベッティングオッズデータをリアルタイムで取得できるようにするにはどうすればよいですか。

2
Webサイトからデータをスクレイピングする最良の方法は何ですか?[閉まっている]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 6年前休業。 この質問を改善する Webサイトからコンテンツを抽出する必要がありますが、アプリケーションは、そのデータにプログラムでアクセスするためのアプリケーションプログラミングインターフェイスや他のメカニズムを提供していません。 Webページをスクレイピングしてデータセットを構築するためのクリックアンドゴー機能を提供するImport.ioと呼ばれる便利なサードパーティツールを見つけました。データをローカルに保持し、サブスクリプションプランをサブスクライブしたくないだけです。 。 この会社は、Webページをスクレイピングしてデータセットを構築するためにどのようなテクニックを使用していますか?私はいくつかのWebスクレイピングフレームワークpjscrape&Scrapyがそのような機能を提供できることを発見しました

12
PhantomJSがHTTPSサイトを開けない
loadspeed.jsの例に基づく次のコードを使用して、httpサーバー認証も必要とするhttps://サイトを開きます。 var page = require('webpage').create(), system = require('system'), t, address; page.settings.userName = 'myusername'; page.settings.password = 'mypassword'; if (system.args.length === 1) { console.log('Usage: scrape.js <some URL>'); phantom.exit(); } else { t = Date.now(); address = system.args[1]; page.open(address, function (status) { if (status !== 'success') { console.log('FAIL to load the address'); } …

7
kayak.comのようなサイトはどのようにコンテンツを集約しますか?[閉まっている]
クローズ。この質問はもっと焦点を合わせる必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てるようにします。 4年前に閉鎖されました。 この質問を改善する あいさつ、私は新しいプロジェクトのアイデアをいじっていて、Kayak.comのようなサービスが非常に多くのソースからのデータをこれほど迅速かつ正確に集約する方法について誰かが何かアイデアを持っているかどうか疑問に思いました。具体的には、Kayak.comがAPIとやり取りしていると思いますか、それともユーザーの要求を満たすために航空会社やホテルのWebサイトをクロール/スクレイピングしていると思いますか?この種のことに対する正しい答えは1つではないことは知っていますが、他の人がこれを行うのに良い方法だと思うものを知りたいと思います。それが役に立ったら、明日kayak.comを作成するふりをしてください...あなたのデータはどこから来ていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.