タグ付けされた質問 「scrapy」

3
ヘッドレスブラウザとスクレイピング-ソリューション[終了]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか? Stack Overflowのトピックとなるように質問を更新します。 5年前休業。 ブラウザーの自動テストスーツとスクレイピングが可能なヘッドレスブラウザープラットフォームの可能なソリューションのリストを掲載しようとしています。 ブラウザのテスト/スクレイピング: セレン - ポリグロットの速いテスト展開のためのブラウザの自動化におけるフラッグシップやPython、Rubyのは、JavaScript、C#、Haskellの多くのバインディング、Firefox用IDE(拡張として)。サーバーとして機能し、多くの機能を備えています。 ジャバスクリプト PhantomJS - JavaScriptは、スクリーンキャプチャと自動化によるヘッドレステストで、Webkitを使用します。バージョン1.8以降、SeleniumのWebDriver APIが実装されているため、任意のWebDriverバインディングを使用でき、テストはSeleniumと互換性があります SlimerJS - PhantomJSと同様に、WebKitの代わりにGecko(Firefox)を使用します CasperJS - PhantomJSとSlimerJSの両方に基づいて構築されたJavaScriptには、追加機能があります ゴーストドライバ - のJavaScriptの実装webdriverをワイヤプロトコルのためPhantomJS。 新しい PhantomCSS -CSS回帰テスト。PhantomJSと Resemble.jsを使用して視覚回帰テストを自動化するためのCasperJSモジュール。 新しい WebdriverCSS-視覚回帰テストを自動化するための Webdriver.ioのプラグイン 新しい PhantomFlow-テストによるユーザーフローの説明と視覚化。Webユーザーインターフェイステストへの実験的アプローチ。 新しい trifleJS -PhantomJS APIを移植して、Internet Explorerエンジンを使用します。 新しい CasperJS IDE (商用) NODE.JS ノードファントム-PhantomJSとnode.jsの間のギャップを埋めます WebDriverJs -Seleniumチームによるnode.jsのSelenium WebDriverバインディング WD.js -WebDriver / …

23
Mac OS X 10.9にLXMLをインストールできない
Lxmlをインストールして、Scrapyをインストールしたいと思います。 今日Macを更新したところ、lxmlを再インストールできなかったため、次のエラーが発生しました。 In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlversion.h' file not found #include "libxml/xmlversion.h" ^ 1 error generated. error: command 'cc' failed with exit status 1 brewを使用してlibxml2とlibxsltをインストールしようとしましたが、どちらも正常にインストールされましたが、それでもlxmlをインストールできません。 前回のインストールでは、Xcodeで開発者ツールを有効にする必要がありましたが、Xcode 5に更新されたため、このオプションは使用できなくなりました。 誰か私が何をする必要があるか知っていますか?
234 python  xcode  macos  scrapy  lxml 

18
OSX 10.11(El Capitan)にScrapyをインストールすると、「OSError:[Errno 1] Operation not allowed」(システム整合性保護)
Scrapy Pythonフレームワークをpip経由でOSX 10.11(El Capitan)にインストールしようとしています。インストールスクリプトは必要なモジュールをダウンロードし、ある時点で次のエラーを返します。 OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info' 次のコマンドを使用して、OSX 10.11のルートレス機能を無効にしようとしました: sudo nvram boot-args="rootless=0";sudo reboot しかし、マシンを再起動しても同じエラーが発生します。 仲間のStackExchangersからの手がかりやアイデアはありますか? それが役立つ場合、完全なスクリプト出力は次のとおりです。 sudo -s pip install scrapy Collecting scrapy Downloading Scrapy-1.0.2-py2-none-any.whl (290kB) 100% |████████████████████████████████| 290kB 345kB/s Requirement already satisfied (use --upgrade to upgrade): cssselect>=0.9 in /Library/Python/2.7/site-packages (from scrapy) Requirement already satisfied (use …

8
scrapyを使用して、AJAXを使用しているWebサイトから動的コンテンツをスクレイピングできますか?
私は最近Pythonを学習しており、ウェブスクレイパーの構築に手を注いでいます。それはまったく派手なことではありません。その唯一の目的は、賭けのWebサイトからデータを取得し、このデータをExcelに入れることです。 問題のほとんどは解決可能であり、私は少し混乱しています。しかし、私は1つの問題について大きなハードルを突きつけています。サイトが馬のテーブルをロードし、現在の賭けの価格をリストしている場合、この情報はどのソースファイルにもありません。手がかりは、このデータが時々ライブであり、いくつかのリモートサーバーから明らかに数値が更新されていることです。私のPCのHTMLには、サーバーが私が必要とするすべての興味深いデータを押し通している穴があります。 現在、動的Webコンテンツの経験は少ないので、これは頭を悩ませるのに苦労しています。 私はJavaまたはJavascriptが鍵だと思います。これは頻繁に現れます。 スクレーパーは単にオッズ比較エンジンです。一部のサイトにはAPIがありますが、APIがないサイトにはこれが必要です。Python 2.7でスクレイピーライブラリを使用しています この質問の記述が多すぎると申し訳ありません。要するに、私の質問は、私が使用できるように、scrapyを使用してこの動的データをスクレイピングする方法を教えてください。このベッティングオッズデータをリアルタイムで取得できるようにするにはどうすればよいですか。


17
スクレイピング:SSL:http://en.wikipedia.orgのCERTIFICATE_VERIFY_FAILEDエラー
「Pythonを使用したWebスクレイピング」のコードを練習していますが、この証明書の問題が引き続き発生します。 from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We have encountered a new page newPage = link.attrs['href'] print(newPage) pages.add(newPage) getLinks(newPage) …


10
PyCharmを使用してScrapyプロジェクトをデバッグする方法
私はScrapy 0.20とPython 2.7で作業しています。PyCharmには優れたPythonデバッガーがあることがわかりました。Scrapyクモを使ってテストしたい。誰でもそれを行う方法を知っていますか? 私が試したこと 実際、私はクモをスクリプトとして実行しようとしました。その結果、そのスクリプトを作成しました。次に、Scrapyプロジェクトを次のようなモデルとしてPyCharmに追加しようとしました。 File->Setting->Project structure->Add content root. しかし、私は他に何をしなければならないのか分かりません

2
動的ページ用のスクレイプ付きセレン
Scrapyを使用して、Webページから製品情報を取得しようとしています。私のスクレイピングされるWebページは次のようになります。 10個の製品を含むproduct_listページから始まります 「次へ」ボタンをクリックすると、次の10個の製品が読み込まれます(URLは2つのページ間で変更されません) LinkExtractorを使用して、各製品リンクを製品ページにたどり、必要なすべての情報を取得します next-button-ajax-callを複製しようとしましたが、機能しません。そこで、セレンを試してみます。別のスクリプトでSeleniumのWebドライバーを実行できますが、scrapyと統合する方法がわかりません。スクレープスパイダーのセレン部分はどこに置けばいいですか? 私のクモは次のようにかなり標準的です: class ProductSpider(CrawlSpider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] rules = [ Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'), ] def parse_product(self, response): self.log("parsing product %s" %response.url, level=INFO) hxs = HtmlXPathSelector(response) # actual data follows どんなアイデアでも大歓迎です。ありがとうございました!

10
1つのScrapyプロジェクトでさまざまなスパイダーにさまざまなパイプラインを使用するにはどうすればよいですか?
複数のスパイダーを含むスクレイププロジェクトがあります。どのパイプラインをどのスパイダーに使用するかを定義する方法はありますか?私が定義したすべてのパイプラインがすべてのスパイダーに適用できるわけではありません。 ありがとう
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.