データサイエンス dataset

30

データサイエンスの一般的な問題の1つは、さまざまなソースからデータを何らかの形で（半構造化された）形式で収集し、さまざまなソースのメトリックを組み合わせて高レベルの分析を行うことです。他の人の努力、特にこのサイトの他の質問を見ると、この分野の多くの人がやや反復的な仕事をしているようです。たとえば、ツイート、Facebookの投稿、Wikipediaの記事などを分析することは、多くのビッグデータの問題の一部です。これらのデータセットの一部は、プロバイダーサイトによって提供されるパブリックAPIを使用してアクセスできますが、通常、これらのAPIからいくつかの貴重な情報またはメトリックが欠落しているため、誰もが同じ分析を何度も繰り返す必要があります。たとえば、ユーザーのクラスタリングはさまざまなユースケースと機能の選択に依存する場合がありますが、Twitter / Facebookユーザーの基本的なクラスタリングは、APIによって提供されず、独立したデータセットで公開されていない多くのビッグデータアプリケーションで役立ちます。他のビッグデータの問題の解決に再利用できる貴重なデータセットを含むインデックスまたは公開されているデータセットホスティングサイトはありますか？データサイエンスのためのGitHub（またはサイト/パブリックデータセットのグループ、または少なくとも包括的なリスト）のようなものを意味します。そうでない場合、そのようなデータサイエンスのプラットフォームがない理由は何ですか？データの商業的価値、データセットを頻繁に更新する必要がある、...？データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか？

168 open-source dataset

5

「バランスのとれた」データセットと「代表的な」データセットのどちらを選ぶべきですか？

私の「機械学習」タスクは、悪意のあるトラフィックから良性のインターネットトラフィックを分離することです。現実の世界のシナリオでは、インターネットトラフィックのほとんど（たとえば90％以上）が無害です。したがって、モデルのトレーニングにも同様のデータ設定を選択する必要があると感じました。しかし、「クラスバランシング」データアプローチを使用してモデルをトレーニングし、同数の良性および悪意のあるトラフィックのインスタンスを暗示している研究論文（私の研究分野）に出会いました。一般に、機械学習モデルを構築している場合、実世界の問題を代表するデータセット、またはモデルの構築に適したバランスの取れたデータセットを選択する必要があります（特定の分類子がクラスの不均衡でうまく動作しないため、または私に知られていない他の理由による）？誰かが選択の長所と短所、そしてどちらを選択するかを決定する方法の長所と短所にもっと光を当てることができますか？

48 machine-learning dataset unbalanced-classes

1

xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか？

私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木（！）1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、下記参照。 XGBoostがこれほど速くなったのはなぜですか？sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか？それとも、「角を切り」、より浅い木を育てるのですか？ PS私はこの議論を知っています：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

非常に不均衡なデータセットのトレーニングのクイックガイド

トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか？ RF以外のどの分類方法が問題を最善の方法で処理できますか？

29 machine-learning classification dataset unbalanced-classes

7

一般公開されているソーシャルネットワークデータセット/ API

一般公開されているデータセットのすばらしいリストの拡張として、公開されているソーシャルネットワークデータセット/クロールAPIのリストがあるかどうかを知りたいです。データセット/ APIへのリンクと一緒に、利用可能なデータの特性が追加されていれば、非常に便利です。そのような情報は次のとおりである必要があります。ソーシャルネットワークの名前。提供するユーザー情報の種類（投稿、プロフィール、友情ネットワークなど）; APIを介してコンテンツのクロールを許可するかどうか（およびレート：10 / min、1k / month、...）; データセット全体のスナップショットを単に提供するかどうか。追加する提案やさらなる特性は大歓迎です。

26 open-source dataset crawling

4

データセット全体を使用して最終モデルをトレーニングする方が常に良いですか？

好みの機械学習モデルをトレーニング、検証、テストした後の一般的な手法は、テストサブセットを含む完全なデータセットを使用して、製品などに展開する最終モデルをトレーニングすることです。私の質問は、そうすることは常に最善のことですか？実際にパフォーマンスが低下した場合はどうなりますか？たとえば、テストサブセットの分類でモデルのスコアが約65％である場合を想定します。これは、モデルのトレーニングが不十分であるか、テストサブセットが外れ値で構成されていることを意味します。後者の場合、それらを使用して最終モデルをトレーニングするとパフォーマンスが低下し、展開後に初めて確認できます。最初の質問の言い換え：高価なロケット実験に搭載された組み込み電子機器にモデルを展開するなど、モデルの1回限りのデモンストレーションがあった場合、最終ステップでテストサブセットを使用して再トレーニングされたモデルを信頼できますか？新しいパフォーマンスでテストしましたか？

24 machine-learning dataset training accuracy

3

データサイエンスプロジェクトのアイデア[終了]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。これがこの質問をするのにふさわしい場所であるかどうかはわかりませんが、データサイエンスに専念するコミュニティが私の意見では最も適切な場所であるはずです。データサイエンスと機械学習を始めたばかりです。私は8か月ほど作業できる長期プロジェクトのアイデアを探しています。データサイエンスと機械学習の組み合わせは素晴らしいでしょう。コアの概念を理解し、同時にそれらを実装するのに役立つほど大きなプロジェクトは非常に有益です。

23 machine-learning bigdata dataset

3

元のデータセットで学習した機械学習モデルを使用して合成データセットを生成する方法は？

一般に、機械学習モデルはデータセットに基づいて構築されます。元のデータセットの特性を保持するような訓練された機械学習モデルを使用して合成データセットを生成する方法があるかどうかを知りたいですか？ [元のデータ->機械学習モデルの構築-> mlモデルを使用して合成データを生成します.... !!!] 出来ますか？可能であれば、関連するリソースを指定してください。

19 machine-learning dataset

3

非公式テキスト上の名前付きエンティティ認識のデータセット

現在、ラベル付きデータセットを検索して、非公式テキスト（ツイートに似たもの）から名前付きエンティティを抽出するモデルをトレーニングしています。データセットのドキュメントには大文字と文法が欠けていることが多いため、今日の最先端のエンティティ認識システムの多くがそうであるニュース記事やジャーナルエントリよりも少し「非公式」なドメイン外データを探しています。訓練を受けた。推奨事項はありますか？これまでのところ、私はここで公開されているツイッターから5万トークンを見つけることができました。

18 dataset nlp

3

R tidyrツールに似たpython / pandas用のデータ整理ツールはありますか？

一部の変数が列ではなく行で表されるKaggleチャレンジに取り組んでいます（Telstra Network Disruption）。R tidyrツールにあるcollect（）、separate（）、spread（）に相当するものを現在探しています。

18 r python dataset data-cleaning pandas

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

ImageNetに個人クラスはありますか？人間に関連するクラスはありますか？

インターネット上の Imagenetクラスの多くのソースの1つを見ると、人間に関連する単一のクラスを見つけることができません（そして、ハーベストマンは収穫する人ではありませんが、パパロングレッグのようなものでした）クモ：-）。そんなことがあるものか？私は、少なくとも期待したpersonクラスを、そしてなど、より具体的であっても、何かman、woman、toddler、などの並べ替えの何もありません。どうして？Lii -Fei-Liと彼女のチームは、人の画像をデータベースに入れないという意識的な選択をしましたか？間違ったファイルを見ていますか？質問のために、ImageNet2014年以降のバージョンを検討できます。

14 machine-learning deep-learning dataset convnet image-classification

5

システムからGoogle Colabに画像フォルダーをアップロードする

約3000枚の画像を含むデータセットでディープラーニングモデルをトレーニングしたいと考えています。データセットは巨大なので、GPUがサポートされているため、Google colabを使用したいと思います。このフル画像フォルダをノートブックにアップロードして使用するにはどうすればよいですか？

14 machine-learning neural-network deep-learning dataset colab

3

クラスのバランスが取れていない場合、検証/テストデータセットでサンプリングを使用する必要がありますか？

私は機械学習の初心者であり、状況に直面しています。IPinYouデータセットを使用してリアルタイム入札の問題に取り組んでおり、クリック予測をしようとしています。知っているかもしれませんが、データセットは非常に不均衡です。1つのポジティブな例（クリック）に対して約1300のネガティブな例（クリックなし）です。これが私がすることです：データを読み込むデータセットを3つのデータセットに分割します。A=トレーニング（60％）B =検証（20％）C =テスト（20％）各データセット（A、B、C）について、比率が5になるように各ネガティブクラスでアンダーサンプリングを行います（1つのポジティブな例に対して5つのネガティブな例）。これにより、よりバランスのとれた3つの新しいデータセットが得られます。A 'B' C ' 次に、データセットA 'とロジスティック回帰を使用してモデルをトレーニングします。私の質問は：どのデータセットを検証に使用する必要がありますか？BまたはB '？どのデータセットをテストに使用する必要がありますか？CまたはC ' モデルの評価に最も関連するメトリックはどれですか？F1Scoreはよく使用されるメトリックのようです。しかし、ここでは不均衡なクラスのため（データセットBとCを使用する場合）、精度は低く（0.20未満）、F1Scoreは低いリコール/精度の影響を非常に受けます。aucPRまたはaucROCを使用する方が正確ですか？学習曲線をプロットする場合、どのメトリックスを使用すればよいですか？（検証にB 'データセットを使用する場合、％errorは関係ないことを知っています）お時間をいただきありがとうございます！よろしく。

13 machine-learning dataset sampling

2

独立したt検定を使用して、正規分布ではないA / Bテスト結果の分析

A / Bテストの結果セット（1つのコントロールグループ、1つの機能グループ）がありますが、正規分布に適合しません。実際、分布はランダウ分布により似ています。独立したt検定では、サンプルが少なくともほぼ正規分布している必要があるため、有効な検定の有効な方法としてt検定を使用することはできません。しかし、私の質問は次のとおりです。どの時点で、t検定は有意性検定の良い方法ではないと言うことができますか？または、別の言い方をすれば、データセットのみが与えられた場合に、t検定のp値の信頼性をどのように修飾できますか？

13 dataset statistics ab-test

タグ付けされた質問 「dataset」

タグ付けされた質問「dataset」