タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。


3
ブースティングでは、なぜ学習者は「弱い」のですか?
stats.SEに関する同様の質問も参照してください。 高めるようなアルゴリズムのAdaBoostとLPBoostを「弱い」学習者が唯一のウィキペディアから、有用であることがより良いチャンスよりも実行する必要が合成されることが知られています: 使用する分類器は弱い(つまり、かなりのエラー率を表示する)場合がありますが、パフォーマンスがランダムでない限り(バイナリ分類のエラー率が0.5になる場合)、最終モデルが改善されます。ランダムな分類器から予想されるエラー率よりも高いエラー率の分類器でさえ、分類器の最終線形結合に負の係数を持ち、したがってその逆のように動作するため、有用です。 強い学習者ではなく、弱い学習者を使用する利点は何ですか?(たとえば、「強力な」学習方法でブーストしない理由-過剰適合しやすいのでしょうか?) 弱い学習者にとってある種の「最適な」強さはありますか?そして、これはアンサンブルの学習者の数に関連していますか? これらの質問に対する答えを裏付ける理論はありますか?

1
Google Prediction APIの背後には何がありますか?
Google Prediction APIはクラウドサービスで、ユーザーはトレーニングデータを送信して不思議な分類器をトレーニングし、後でスパムフィルターの実装やユーザー設定の予測など、着信データの分類を要求できます。 しかし、舞台裏には何がありますか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
平均二乗誤差が経験的分布とガウスモデル間のクロスエントロピーであるのはなぜですか?
5.5では、ディープラーニング(イアングッドフェロー、ヨシュアベンジオ、アーロンクールビル)が、 負の対数尤度で構成される損失は、トレーニングセットで定義された経験的分布とモデルで定義された確率分布の間の相互エントロピーです。たとえば、平均二乗誤差は経験的分布とガウスモデルの間の相互エントロピーです。 なぜそれらが同等なのか理解できず、著者はその点については拡張していません。

3
トレーニング、検証、テストなどの相互検証。なぜ3つのサブセットが必要なのですか?
相互検証プロセスに関して質問があります。私は、Curseraの機械学習のコースの途中にいます。トピックの1つは相互検証に関するものです。フォローするのが少し難しいと感じました。モデルが将来の(未知の)データに対して適切に機能し、CVがオーバーフィッティングを防ぐため、CVが必要な理由を知っています。ただし、プロセス自体は混乱を招きます。 私が理解したことは、データを3つのサブセット(トレーニング、検証、テスト)に分割することです。トレーニングと検証は、モデルの最適な複雑さを見つけることです。私が理解していないのは、3番目のサブセットです。モデルの多くの機能を使用し、トレーニングして検証サブセットで検証し、構造を変更するときに最小コスト関数を探すことを理解しています。見つかったら、テストサブセットでモデルをテストします。検証サブセットで最小コスト関数を既に見つけた場合、テストサブセットで再度テストする必要があるのはなぜですか? 誰かがこれを明確にしてくれますか? ありがとうございました

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか
一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります(0-1損失など)。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。 次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。 (ヒンジ損失とロジスティック損失の)そのような設計がある理由は、目的関数を凸にしたいからです。 ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。 私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか?

3
最高の盗賊アルゴリズム?
最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?

4
トレーニングステップと評価ステップの間に非対称性があるのはなぜですか?
特に自然言語処理では、機械学習はトレーニングステップと評価ステップの2つのステップで進行し、異なるデータを使用する必要があることはよく知られています。どうしてこれなの?直観的に、このプロセスはデータの過剰適合を回避するのに役立ちますが、私はこれが事実である(情報理論的)理由を見ることはできません。 それに関連して、トレーニングに使用するデータセットの量と評価に使用する量について、それぞれ2/3や1/3のように、いくつかの数値が見られました。特定の分布を選択するための理論的根拠はありますか?

1
相互検証は検証セットの適切な代替物ですか?
テキスト分類では、約800サンプルのトレーニングセットと約150サンプルのテストセットがあります。テストセットは使用されたことがなく、最後まで使用されるのを待っています。 私は800のサンプルトレーニングセット全体を使用し、分類器と機能を調整および微調整しながら10倍の相互検証を行います。つまり、個別の検証セットはありませんが、10倍に達するたびに検証セットが自動的に選択されます。 すべてに満足し、評価の最終段階に入りたいと思ったら、800サンプル全体で分類器をトレーニングします。150サンプルのテストセットでテストします。 テキスト分類でのクロス検証のそのような使用法を理解していますか?このプラクティスは有効ですか? クロス検証に関するもう1つの質問は次のとおりです。 10倍ではなく、パフォーマンスの一般的な指標として1つを省いてみました。除外する場合、f1 / precision / recallに関する情報を取得することはできないため、leave-one-outの精度と10倍のメトリクスの関係はどうなっているのでしょうか? どんな洞察も大歓迎です。 編集: これは、相互検証の非常に良い紹介です。また、他の研究論文も参照しています。



6
なぜ重みが小さくなると正則化のモデルが単純になるのですか?
私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。 正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。 これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。 私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか?ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか?Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み(x ^ 3およびx ^ 4)がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。 私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります(重みの小さい特徴は関数の基礎に似ているため)。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

7
Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか?
今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました: してみましょう(例えば正または負など)クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素(不明)を追加します。UNKUNKUNK 定義P(w | c )= カウント(w 、c )+ 1カウント(c )+ | V| +1、P(w|c)=カウント(w、c)+1カウント(c)+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.