タグ付けされた質問 「scraping」

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
倫理的かつ費用対効果の高いデータスクラップのスケーリング
構造化されたデータと構造化されていないデータをインターネットからスクレイピングし、それを自分のモデルで利用するような喜びを私に与えるものはほとんどありません。 たとえば、Data Science Toolkit(またはRDSTKRプログラマー)を使用すると、IPまたはアドレスを使用して多くの適切なロケーションベースのデータを取得でき、tm.webmining.pluginfor Rのtmパッケージにより、財務データとニュースデータを簡単にスクレイピングできます。このような(半)構造化データを超える場合は、を使用する傾向がありますXPath。 ただし、許可されるクエリの数の制限により、私は常に抑制されています。Googleは24時間あたり約50,000件のリクエストに制限していると思いますが、これはビッグデータにとって問題です。 技術的な観点からは、これらの制限を簡単に回避できます。IPアドレスを切り替えて、環境から他の識別子を削除するだけです。しかし、これは倫理的および財政的な懸念の両方を示しています(私は思う?)。 私が見落としている解決策はありますか?

7
LinkedIn Webスクレイピング
LinkedIn APIに接続するための新しいRパッケージを最近発見しました。残念ながら、LinkedIn APIはそもそもかなり制限されているようです。たとえば、企業の基本データしか取得できず、これは個人のデータから切り離されています。特定の会社のすべての従業員に関するデータを取得したいのですが、これはサイトで手動で行うことができますが、APIからはできません。 import.ioは、LinkedInのページネーションを認識していれば完璧です(ページの終わりを参照)。 LinkedInの現在のフォーマットに適用可能なWebスクレイピングツールやテクニック、またはより柔軟な分析を実行するためにAPIを曲げる方法を知っている人はいますか?できればRまたはWebベースですが、他のアプローチも可能です。

4
IMDB Webページをこする方法は?
データ分析の学習の一環として、Pythonを使用してWebスクレイピングを自分で学習しようとしています。次のURLのimdb Webページをスクレイピングしようとしています:http : //www.imdb.com/search/title? sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoupモジュールを使用しています。以下は私が使用しているコードです: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, genres,runtime, rating, year 次の出力が得られます。 The Shawshank …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.