タグ付けされた質問 「dataset」

データセットは、データのコレクションであり、多くの場合、表形式またはマトリックス形式です。このタグはデータリクエスト用ではありません(「どこでデータセットを見つけることができますか」など)-> OpenDataを参照

6
ベストプラクティスを理解するデータセット
私はデータマイニングのCSマスター学生です。私のスーパーバイザーは、分類器を実行したり、データセットを使用したりする前に、データを完全に理解し、データがクリーンで正しいことを確認する必要があると言いました。 私の質問: データセットを理解するためのベストプラクティスは何ですか(数値属性と名義属性を持つ高次元)? データセットがクリーンであることを確認するためのプラクティス? データセットの値が間違っていないことを確認する方法

2
トレーニングおよびテストデータの変数が大文字で定義されているのはなぜですか(Python)。
この質問がこのサイトで最も適切であることを願っています... Pythonでは、通常、クラス名は最初の文字として大文字を使用して定義されます。次に例を示します。 class Vehicle: ... しかし、機械学習の分野では、しばしば回は訓練し、試験データは以下のように定義されているXとY-ではないxとy。たとえば、私は現在Kerasでこのチュートリアルを読んでいますが、変数としてXおよびYを使用しています: from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target なぜこれらは大文字として定義されているのですか?これらの変数を定義するために大文字を使用する方が良いという、機械学習分野の間に(少なくともPythonでは)慣例はありますか? あるいは、人々は機械学習で大文字と小文字の変数を区別しますか? 実際、同じチュートリアルが後でこれらの変数を次のように区別します。 from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)
13 python  dataset 

4
大きなカテゴリ値のホットエンコーディングの代替手段の1つ?
こんにちは1600カテゴリを超える大きなカテゴリ値を持つデータフレームがあります。1600列を超えないように代替手段を見つける方法はありますか。 私はこれを興味深いリンクの下に見つけましたhttp://amunategui.github.io/feature-hashing/#sourcecode しかし、彼らは私が望まないクラス/オブジェクトに変換しています。さまざまな機械学習モデルでテストできるように、最終出力をデータフレームとして必要ですか?または、生成された行列を使用して、ロジスティック回帰またはXGBoost以外の他の機械学習モデルをトレーニングする方法はありますか? とにかく実装できますか?

2
データの不均衡を処理する必要があるのはなぜですか?
データの不均衡に対処する必要がある理由を知る必要があります。私はそれをどのように扱うか、アップサンプリングまたはダウンサンプリング、またはSmoteを使用することで問題を解決するためのさまざまな方法を知っています。 たとえば、100のうち1%のまれな疾患があり、トレーニングセットに50/50サンプルのバランスのとれたデータセットを使用することに決めたとします。疾患?比率が100分の1であっても。 データの不均衡に対処する必要があるのはなぜですか? バランスを設定するための推奨比率は何ですか

2
航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか?
航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。 より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。 しかし、私はより多くの数値ベースのアプローチを探しています。 データセット 私が使用している(自己)収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日(毎晩00:00)60日以内に収集されました。 したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。 (フライトの出発日が過去の場合、フライトの運賃を徴収することはできません) 基本的に次のように見える書式なし:(偽のデータ) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

4
ウェブ上の大きなデータセットをAWS S3に直接ダウンロードする
大規模なデータセットをURLからAmazon S3にインポートできるかどうか誰かが知っていますか? 基本的に、私は巨大なファイルをダウンロードして、それをWebポータルからS3に再アップロードしないようにします。ダウンロードURLをS3に提供し、ファイルシステムにダウンロードされるのを待ちたいだけです。簡単なことのように思えますが、ドキュメントが見つかりません。
12 dataset  aws 

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
機械学習モデルをトレーニングするのに十分な量のデータはありますか?
私はしばらくの間機械学習とバイオインフォマティクスに取り組んできましたが、今日、データマイニングの主な一般的な問題について同僚と会話しました。 私の同僚(機械学習のエキスパート)は、彼の意見では、機械学習の間違いなく最も重要な実用的な側面は、機械学習モデルをトレーニングするのに十分なデータを収集したかどうかを理解する方法だと述べました。 私はこの側面をそれほど重視していなかったので、この発言は私を驚かせました... その後、インターネットで詳細情報を探したところ、FastML.comのレポートで、この投稿は経験則として、機能の約10倍のデータインスタンスが必要であることがわかりました。 2つの質問: 1-この問題は機械学習に特に関連していますか? 2 - 10倍の作業を支配ですか?このテーマに関連する他のソースはありますか?

4
株式の時価総額および毎日の売上高データはどこでダウンロードできますか?
過去の株価データを提供するソースはたくさんありますが、OHLCフィールドとボリュームおよび調整済み終値のみを提供しています。また、私が見つけたいくつかの出典は時価総額データセットを提供していますが、それらは米国株に制限されています。Yahoo Financeはこのデータをオンラインで提供していますが、ダウンロードするオプションはありません(または私が知っているものはありません)。 ティッカー名を使用して国のさまざまなトップ証券取引所に属する株式のこのデータをどこでダウンロードできますか? Yahoo FinanceやGoogle Financeからダウンロードする方法はありますか? 過去10年間のデータが必要なので、これを行うスクリプトまたはAPIが必要です。
11 dataset 

3
データセットを不均衡と見なす必要があるのはいつですか?
データセット内の正と負の例の数が不均衡な状況に直面しています。 私の質問は、データセットである種のバランシングを強制するために大きなカテゴリをサブサンプリングする必要があるときを教えてくれる経験則がありますか? 例: 正の例の数が1,000で負の例の数が10,000の場合、データセット全体で分類器をトレーニングする必要がありますか、それとも負の例をサブサンプリングする必要がありますか? 1,000の正の例と100,000の負の例についても同じ質問です。 10,000人が肯定的で1,000人が否定的である場合も同じ質問です。 等...

3
ネットワーク分析のクラシックデータセット
機械学習の分類/回帰タスクには、いくつかの古典的なデータセットがあります。最も人気のあるものは: アイリスフラワーデータセット ; タイタニックデータセット ; モータートレンドカー ; 等 しかし、誰もがネットワーク分析/グラフ理論のための同様のデータセットを知っていますか?より具体的- 比較/評価/学習のためのゴールド標準データセットを探しています: 中心性対策; ネットワーククラスタリングアルゴリズム。 公開されているネットワークやグラフの膨大なリストは必要ありませんが、実際に知っておくべきデータセットがいくつかあります。 編集: 「ゴールドスタンダードデータセット」に正確な機能を提供することは非常に困難ですが、ここではいくつかの考えを示します。実際のクラシックデータセットは次の基準を満たす必要があると思います。 記事や教科書の複数の参照; 有名なネットワーク分析ソフトウェアパッケージに含まれています。 十分な存在時間; グラフ分析に関する多くのコースでの使用。 私の関心分野については、頂点のラベル付きクラス、および/または事前計算された(または事前定義された)「オーソリティスコア」(つまり、中心性推定)も必要です。この質問をした後、私は検索を続けました、そしてここにいくつかの適切な例があります: Zacharyの空手クラブ:1977年に導入され、1.5K回以上引用され(Google Scholarによる)、頂点にはFaction属性があります(これはクラスタリングに使用できます)。 Erdos Collaboration Network:残念ながら、このネットワークはデータファイルの形式で見つかりませんが、かなり有名で、誰かが数学者の専門データでネットワークを充実させれば、クラスタリングアルゴリズムのテストにも使用できます。
10 dataset  graphs 

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.