タグ付けされた質問 「dataset」

データセットは、データのコレクションであり、多くの場合、表形式またはマトリックス形式です。このタグはデータリクエスト用ではありません(「どこでデータセットを見つけることができますか」など)-> OpenDataを参照

30
公開されているデータセット
データサイエンスの一般的な問題の1つは、さまざまなソースからデータを何らかの形で(半構造化された)形式で収集し、さまざまなソースのメトリックを組み合わせて高レベルの分析を行うことです。他の人の努力、特にこのサイトの他の質問を見ると、この分野の多くの人がやや反復的な仕事をしているようです。たとえば、ツイート、Facebookの投稿、Wikipediaの記事などを分析することは、多くのビッグデータの問題の一部です。 これらのデータセットの一部は、プロバイダーサイトによって提供されるパブリックAPIを使用してアクセスできますが、通常、これらのAPIからいくつかの貴重な情報またはメトリックが欠落しているため、誰もが同じ分析を何度も繰り返す必要があります。たとえば、ユーザーのクラスタリングはさまざまなユースケースと機能の選択に依存する場合がありますが、Twitter / Facebookユーザーの基本的なクラスタリングは、APIによって提供されず、独立したデータセットで公開されていない多くのビッグデータアプリケーションで役立ちます。 他のビッグデータの問題の解決に再利用できる貴重なデータセットを含むインデックスまたは公開されているデータセットホスティングサイトはありますか?データサイエンスのためのGitHub(またはサイト/パブリックデータセットのグループ、または少なくとも包括的なリスト)のようなものを意味します。そうでない場合、そのようなデータサイエンスのプラットフォームがない理由は何ですか?データの商業的価値、データセットを頻繁に更新する必要がある、...?データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか?

5
「バランスのとれた」データセットと「代表的な」データセットのどちらを選ぶべきですか?
私の「機械学習」タスクは、悪意のあるトラフィックから良性のインターネットトラフィックを分離することです。現実の世界のシナリオでは、インターネットトラフィックのほとんど(たとえば90%以上)が無害です。したがって、モデルのトレーニングにも同様のデータ設定を選択する必要があると感じました。しかし、「クラスバランシング」データアプローチを使用してモデルをトレーニングし、同数の良性および悪意のあるトラフィックのインスタンスを暗示している研究論文(私の研究分野)に出会いました。 一般に、機械学習モデルを構築している場合、実世界の問題を代表するデータセット、またはモデルの構築に適したバランスの取れたデータセットを選択する必要があります(特定の分類子がクラスの不均衡でうまく動作しないため、または私に知られていない他の理由による)? 誰かが選択の長所と短所、そしてどちらを選択するかを決定する方法の長所と短所にもっと光を当てることができますか?

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
非常に不均衡なデータセットのトレーニングのクイックガイド
トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。 ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか? RF以外のどの分類方法が問題を最善の方法で処理できますか?

7
一般公開されているソーシャルネットワークデータセット/ API
一般公開されているデータセットのすばらしいリストの拡張として、公開されているソーシャルネットワークデータセット/クロールAPIのリストがあるかどうかを知りたいです。データセット/ APIへのリンクと一緒に、利用可能なデータの特性が追加されていれば、非常に便利です。そのような情報は次のとおりである必要があります。 ソーシャルネットワークの名前。 提供するユーザー情報の種類(投稿、プロフィール、友情ネットワークなど); APIを介してコンテンツのクロールを許可するかどうか(およびレート:10 / min、1k / month、...); データセット全体のスナップショットを単に提供するかどうか。 追加する提案やさらなる特性は大歓迎です。

4
データセット全体を使用して最終モデルをトレーニングする方が常に良いですか?
好みの機械学習モデルをトレーニング、検証、テストした後の一般的な手法は、テストサブセットを含む完全なデータセットを使用して、製品などに展開する最終モデルをトレーニングすることです。 私の質問は、そうすることは常に最善のことですか?実際にパフォーマンスが低下した場合はどうなりますか? たとえば、テストサブセットの分類でモデルのスコアが約65%である場合を想定します。これは、モデルのトレーニングが不十分であるか、テストサブセットが外れ値で構成されていることを意味します。後者の場合、それらを使用して最終モデルをトレーニングするとパフォーマンスが低下し、展開後に初めて確認できます。 最初の質問の言い換え: 高価なロケット実験に搭載された組み込み電子機器にモデルを展開するなど、モデルの1回限りのデモンストレーションがあった場合、最終ステップでテストサブセットを使用して再トレーニングされたモデルを信頼できますか?新しいパフォーマンスでテストしましたか?

3
データサイエンスプロジェクトのアイデア[終了]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。 これがこの質問をするのにふさわしい場所であるかどうかはわかりませんが、データサイエンスに専念するコミュニティが私の意見では最も適切な場所であるはずです。 データサイエンスと機械学習を始めたばかりです。私は8か月ほど作業できる長期プロジェクトのアイデアを探しています。 データサイエンスと機械学習の組み合わせは素晴らしいでしょう。 コアの概念を理解し、同時にそれらを実装するのに役立つほど大きなプロジェクトは非常に有益です。

3
元のデータセットで学習した機械学習モデルを使用して合成データセットを生成する方法は?
一般に、機械学習モデルはデータセットに基づいて構築されます。元のデータセットの特性を保持するような訓練された機械学習モデルを使用して合成データセットを生成する方法があるかどうかを知りたいですか? [元のデータ->機械学習モデルの構築-> mlモデルを使用して合成データを生成します.... !!!] 出来ますか ?可能であれば、関連するリソースを指定してください。

3
非公式テキスト上の名前付きエンティティ認識のデータセット
現在、ラベル付きデータセットを検索して、非公式テキスト(ツイートに似たもの)から名前付きエンティティを抽出するモデルをトレーニングしています。データセットのドキュメントには大文字と文法が欠けていることが多いため、今日の最先端のエンティティ認識システムの多くがそうであるニュース記事やジャーナルエントリよりも少し「非公式」なドメイン外データを探しています。訓練を受けた。 推奨事項はありますか?これまでのところ、私はここで公開されているツイッターから5万トークンを見つけることができました。
18 dataset  nlp 


5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
ImageNetに個人クラスはありますか?人間に関連するクラスはありますか?
インターネット上の Imagenetクラスの多くのソースの1つを見ると、人間に関連する単一のクラスを見つけることができません(そして、ハーベストマンは収穫する人ではありませんが、パパロングレッグのようなものでした)クモ :-)。そんなことがあるものか?私は、少なくとも期待したpersonクラスを、そしてなど、より具体的であっても、何かman、woman、toddler、などの並べ替えの何もありません。どうして?Lii -Fei-Liと彼女のチームは、人の画像をデータベースに入れないという意識的な選択をしましたか?間違ったファイルを見ていますか?質問のために、ImageNet2014年以降のバージョンを検討できます。

5
システムからGoogle Colabに画像フォルダーをアップロードする
約3000枚の画像を含むデータセットでディープラーニングモデルをトレーニングしたいと考えています。データセットは巨大なので、GPUがサポートされているため、Google colabを使用したいと思います。このフル画像フォルダをノートブックにアップロードして使用するにはどうすればよいですか?

3
クラスのバランスが取れていない場合、検証/テストデータセットでサンプリングを使用する必要がありますか?
私は機械学習の初心者であり、状況に直面しています。IPinYouデータセットを使用してリアルタイム入札の問題に取り組んでおり、クリック予測をしようとしています。 知っているかもしれませんが、データセットは非常に不均衡です。1つのポジティブな例(クリック)に対して約1300のネガティブな例(クリックなし)です。 これが私がすることです: データを読み込む データセットを3つのデータセットに分割します。A=トレーニング(60%)B =検証(20%)C =テスト(20%) 各データセット(A、B、C)について、比率が5になるように各ネガティブクラスでアンダーサンプリングを行います(1つのポジティブな例に対して5つのネガティブな例)。これにより、よりバランスのとれた3つの新しいデータセットが得られます。A 'B' C ' 次に、データセットA 'とロジスティック回帰を使用してモデルをトレーニングします。 私の質問は: どのデータセットを検証に使用する必要がありますか?BまたはB '? どのデータセットをテストに使用する必要がありますか?CまたはC ' モデルの評価に最も関連するメトリックはどれですか?F1Scoreはよく使用されるメトリックのようです。しかし、ここでは不均衡なクラスのため(データセットBとCを使用する場合)、精度は低く(0.20未満)、F1Scoreは低いリコール/精度の影響を非常に受けます。aucPRまたはaucROCを使用する方が正確ですか? 学習曲線をプロットする場合、どのメトリックスを使用すればよいですか?(検証にB 'データセットを使用する場合、%errorは関係ないことを知っています) お時間をいただきありがとうございます! よろしく。

2
独立したt検定を使用して、正規分布ではないA / Bテスト結果の分析
A / Bテストの結果セット(1つのコントロールグループ、1つの機能グループ)がありますが、正規分布に適合しません。実際、分布はランダウ分布により似ています。 独立したt検定では、サンプルが少なくともほぼ正規分布している必要があるため、有効な検定の有効な方法としてt検定を使用することはできません。 しかし、私の質問は次のとおりです 。どの時点で、t検定は有意性検定の良い方法ではないと言うことができますか? または、別の言い方をすれば、データセットのみが与えられた場合に、t検定のp値の信頼性をどのように修飾できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.