タグ付けされた質問 「dataset」

データセットのリクエストは、このサイトではトピックから外れています。このタグは、データセットの作成、処理、または保守に関する質問に使用します。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
「アイリス」データセットのどの側面が、サンプル/ティーチング/テストデータセットとして非常に成功したか
「アイリス」のデータセットは、おそらくここにほとんどの人々によく知られている-それは、標準的なテスト・データ・セットとゴーの例データセットのデータの可視化から、機械学習へのすべてのための一つです。たとえば、この質問の全員が最終的に、治療別に分けられた散布図の議論にそれを使用しました。 何が作るアイリス便利なように設定データを?それが最初にあったというだけですか?誰かが有用なサンプル/テストデータセットを作成しようとした場合、それからどのような教訓を得ることができますか?
28 dataset 

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
レビュアーとして、ジャーナルが利用できない場合でも、データとコードを利用可能にすることを正当化できますか?
科学は再現可能でなければならないため、定義により、データとコードの共有に関するエール円卓会議で議論されているように、データとコードは再現性の重要な要素であるという認識が高まっています。 データとコードの共有を必要としないジャーナルの原稿を確認する際に、データとコードを利用できるようにリクエストできますか レビュー時に私に 出版時点で公的に(ジャーナルはサプリメントをサポートしています) また、そのようなリクエストをどのように表現できますか? 更新:一般的なケースに興味がありますが、この特定のケースは以前に公開されたすべてのデータを使用したメタ分析で構成され、コードはSASの単純な線形モデルです サイドノートは、より多くの研究が生データを提供すれば、クロススタディ推論(メタ分析の目標である)を行う能力が大幅に強化されます アップデート2: レビューのためにエディターにデータとコードを要求し、エディターはその要求を合理的であると見なし、1日以内に要求された資料を受け取りました(十分であるが、不可解な変数名、メタデータなし、インラインコメントはほとんどありません)。

2
一般的なデータセットのデータ増強技術?
多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。100100100 画像の場合、データの増加は比較的簡単です。ただし、(たとえば)サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか?100100100

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

9
オーバーフィットとアンダーフィット
私は過剰適合と不足適合についていくつかの研究を行い、それらが何であるかを正確に理解しましたが、その理由はわかりません。 オーバーフィットとアンダーフィットの主な理由は何ですか? モデルのトレーニングでこれら2つの問題に直面するのはなぜですか?

1
機械学習アルゴリズムの欠損データとスパースデータの違い
スパースデータと欠落データの主な違いは何ですか?そして、それは機械学習にどのように影響しますか?より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰(予測数)タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。

1
遠隔監視:監視あり、半監視、またはその両方?
「遠隔監視」とは、弱くラベル付けされたトレーニングセットが与えられると分類器が学習される学習スキームです(トレーニングデータはヒューリスティック/ルールに基づいて自動的にラベル付けされます)。ラベル付きデータがヒューリスティック/自動ラベル付けされている場合、教師あり学習と半教師あり学習の両方にこのような「遠隔監視」を含めることができると思います。ただし、このページでは、「遠隔監視」は「半監視学習」と定義されます(つまり、「半監視」に限定されます)。 私の質問は、「遠隔監視」はもっぱら準監視を指しているのでしょうか?私の意見では、教師あり学習と半教師あり学習の両方に適用できます。信頼できる参照があれば提供してください。

5
基本的な機械学習アルゴリズムを学習するための優れたデータセットは何ですか?その理由は何ですか?
私は機械学習が初めてであり、さまざまな機械学習アルゴリズム(デシジョンツリー、ブースティング、SVM、ニューラルネットワーク)の違いを比較対照できるデータセットを探しています そのようなデータセットはどこにありますか?データセットを検討する際に何を探す必要がありますか? いくつかの優れたデータセットを指し示し、それらを優れたデータセットにする理由を教えていただければ素晴らしいと思いますか?

4
治療の影響を受ける共変量で必要な良いデータの例
私は多くのRデータセット、DASLでの投稿、および他の場所を見てきましたが、実験データの共分散分析を説明する興味深いデータセットの良い例をあまり見つけていません。統計の教科書には、不自然なデータを含む「おもちゃ」のデータセットが多数あります。 例があります: データは本物であり、興味深いストーリーがあります 少なくとも1つの治療因子と2つの共変量があります 少なくとも1つの共変量は1つ以上の治療因子の影響を受け、1つは治療の影響を受けません。 観察的ではなく実験的、できれば バックグラウンド 私の本当の目標は、Rパッケージのビネットに入れる良い例を見つけることです。しかし、より大きな目標は、共分散分析におけるいくつかの重要な懸念を示すために、人々が良い例を見る必要があるということです。次の構成シナリオを検討してください(そして、農業に関する私の知識はせいぜい表面的なものであると理解してください)。 肥料を区画にランダム化して、作物を植える実験を行います。適切な生育期間の後、作物を収穫し、品質特性を測定します-それが応答変数です。しかし、栽培期間中の総降雨量、収穫時の土壌酸性度、そしてもちろんどの肥料が使用されたかを記録しています。したがって、2つの共変量と1つの処理があります。 結果データを分析する通常の方法は、因子としての処理と共変量の相加効果をもつ線形モデルを適合させることです。次に、結果を要約するために、平均降水量と平均土壌酸性度3での各肥料のモデルからの予測である「調整済み平均」(別名最小二乗平均)を計算します。これにより、すべてが平等になります。これらの結果を比較すると、降雨量と酸性度が一定に保たれるためです。 しかし、これはおそらく間違ったことです。肥料はおそらく土壌の酸性度と反応に影響を与えるからです。治療効果には酸性度への影響が含まれるため、調整された手段は誤解を招く可能性があります。これを処理する1つの方法は、モデルから酸性度を取り除くことです。その後、降雨量を調整した手段で公平な比較を行います。しかし、酸性度が重要な場合、この公平性は、残留変動の増加という大きな犠牲を伴います。 モデルの元の値の代わりに調整されたバージョンの酸性度を使用することにより、この問題を回避する方法があります。私のRパッケージlsmeansの今後の更新により、これは非常に簡単になります。しかし、私はそれを説明する良い例が欲しいです。いくつかの優れた実例となるデータセットを教えてくれた人に感謝し、正当に認めます。

2
データベースの品質保証および品質管理(QA / QC)ガイドライン
バックグラウンド 私は一次文献からデータベースへのデータの入力を監督しています。特に、ユーザーが実験計画を解釈し、グラフィックと表からデータを抽出し、結果を標準化された単位に変換する必要があるため、データ入力プロセスはエラーが発生しやすくなります。 データは、Webインターフェイスを介してMySQLデータベースに入力されます。これまでに、20を超える変数、100を超える種、および500を超える引用からの1万を超えるデータポイントが含まれています。可変データだけでなく、各データポイントに関連付けられた種、研究の場所など、ルックアップテーブルに含まれるデータの品質のチェックを実行する必要があります。 データ入力が進行中のため、QA / QCを断続的に実行する必要があります。データはまだ公開されていませんが、今後数か月以内に公開する予定です。 現在、私のQA / QCには3つの手順が含まれています。 2人目のユーザーが各データポイントをチェックします。 外れ値の各変数のヒストグラムを視覚的に検査します。 ユーザーは、誤った結果が得られた後に疑わしいデータを報告します。 ご質問 このデータベースの堅牢なQA / QC手順の開発に使用できるガイドラインはありますか? 最初のステップは最も時間がかかります。これをより効率的にするためにできることはありますか?

10
ソーシャルネットワークデータセット
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 分類タスク用のソーシャルネットワークデータセット(twitter、friendfeed、facebook、lastfmなど)を探しています(できればarff形式)。 UCIとGoogleでの検索はこれまで成功していませんでした...何か提案はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.