統計とビッグデータ machine-learning

2

よくわかりません。ディープビリーフネットワークとディープボルツマンマシンには違いがありますか？もしそうなら、違いは何ですか？

28 machine-learning deep-learning rbm deep-belief-networks

3

stats.SEに関する同様の質問も参照してください。高めるようなアルゴリズムのAdaBoostとLPBoostを「弱い」学習者が唯一のウィキペディアから、有用であることがより良いチャンスよりも実行する必要が合成されることが知られています：使用する分類器は弱い（つまり、かなりのエラー率を表示する）場合がありますが、パフォーマンスがランダムでない限り（バイナリ分類のエラー率が0.5になる場合）、最終モデルが改善されます。ランダムな分類器から予想されるエラー率よりも高いエラー率の分類器でさえ、分類器の最終線形結合に負の係数を持ち、したがってその逆のように動作するため、有用です。強い学習者ではなく、弱い学習者を使用する利点は何ですか？（たとえば、「強力な」学習方法でブーストしない理由-過剰適合しやすいのでしょうか？）弱い学習者にとってある種の「最適な」強さはありますか？そして、これはアンサンブルの学習者の数に関連していますか？これらの質問に対する答えを裏付ける理論はありますか？

28 machine-learning theory boosting

1

Google Prediction APIの背後には何がありますか？

Google Prediction APIはクラウドサービスで、ユーザーはトレーニングデータを送信して不思議な分類器をトレーニングし、後でスパムフィルターの実装やユーザー設定の予測など、着信データの分類を要求できます。しかし、舞台裏には何がありますか？

28 machine-learning

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

2

平均二乗誤差が経験的分布とガウスモデル間のクロスエントロピーであるのはなぜですか？

5.5では、ディープラーニング（イアングッドフェロー、ヨシュアベンジオ、アーロンクールビル）が、負の対数尤度で構成される損失は、トレーニングセットで定義された経験的分布とモデルで定義された確率分布の間の相互エントロピーです。たとえば、平均二乗誤差は経験的分布とガウスモデルの間の相互エントロピーです。なぜそれらが同等なのか理解できず、著者はその点については拡張していません。

28 machine-learning normal-distribution cross-entropy

3

トレーニング、検証、テストなどの相互検証。なぜ3つのサブセットが必要なのですか？

相互検証プロセスに関して質問があります。私は、Curseraの機械学習のコースの途中にいます。トピックの1つは相互検証に関するものです。フォローするのが少し難しいと感じました。モデルが将来の（未知の）データに対して適切に機能し、CVがオーバーフィッティングを防ぐため、CVが必要な理由を知っています。ただし、プロセス自体は混乱を招きます。私が理解したことは、データを3つのサブセット（トレーニング、検証、テスト）に分割することです。トレーニングと検証は、モデルの最適な複雑さを見つけることです。私が理解していないのは、3番目のサブセットです。モデルの多くの機能を使用し、トレーニングして検証サブセットで検証し、構造を変更するときに最小コスト関数を探すことを理解しています。見つかったら、テストサブセットでモデルをテストします。検証サブセットで最小コスト関数を既に見つけた場合、テストサブセットで再度テストする必要があるのはなぜですか？誰かがこれを明確にしてくれますか？ありがとうございました

28 machine-learning cross-validation

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか

一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります（0-1損失など）。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。（ヒンジ損失とロジスティック損失の）そのような設計がある理由は、目的関数を凸にしたいからです。ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか？

27 machine-learning classification optimization loss-functions

3

最高の盗賊アルゴリズム？

最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界（UCB）です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか（経験的性能または理論的限界のいずれかに関して）？このアルゴリズムはある意味で最適ですか？

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

トレーニングステップと評価ステップの間に非対称性があるのはなぜですか？

特に自然言語処理では、機械学習はトレーニングステップと評価ステップの2つのステップで進行し、異なるデータを使用する必要があることはよく知られています。どうしてこれなの？直観的に、このプロセスはデータの過剰適合を回避するのに役立ちますが、私はこれが事実である（情報理論的）理由を見ることはできません。それに関連して、トレーニングに使用するデータセットの量と評価に使用する量について、それぞれ2/3や1/3のように、いくつかの数値が見られました。特定の分布を選択するための理論的根拠はありますか？

27 machine-learning cross-validation

1

相互検証は検証セットの適切な代替物ですか？

テキスト分類では、約800サンプルのトレーニングセットと約150サンプルのテストセットがあります。テストセットは使用されたことがなく、最後まで使用されるのを待っています。私は800のサンプルトレーニングセット全体を使用し、分類器と機能を調整および微調整しながら10倍の相互検証を行います。つまり、個別の検証セットはありませんが、10倍に達するたびに検証セットが自動的に選択されます。すべてに満足し、評価の最終段階に入りたいと思ったら、800サンプル全体で分類器をトレーニングします。150サンプルのテストセットでテストします。テキスト分類でのクロス検証のそのような使用法を理解していますか？このプラクティスは有効ですか？クロス検証に関するもう1つの質問は次のとおりです。 10倍ではなく、パフォーマンスの一般的な指標として1つを省いてみました。除外する場合、f1 / precision / recallに関する情報を取得することはできないため、leave-one-outの精度と10倍のメトリクスの関係はどうなっているのでしょうか？どんな洞察も大歓迎です。編集：これは、相互検証の非常に良い紹介です。また、他の研究論文も参照しています。

27 machine-learning classification cross-validation text-mining

3

教師なし学習、教師あり学習、半教師あり学習

機械学習のコンテキストでは、次の違いは何ですか教師なし学習教師あり学習と半教師あり学習？そして、注目すべき主要なアルゴリズムのアプローチは何ですか？

27 machine-learning unsupervised-learning supervised-learning semi-supervised

6

理論的な機械学習のために凸最適化を研究する理由

私は博士号のために、理論的な機械学習、具体的には転移学習に取り組んでいます。好奇心から、なぜ凸最適化のコースを取る必要があるのですか？理論的機械学習の研究で、凸最適化から得られることは何ですか？

27 machine-learning optimization convex transfer-learning

6

なぜ重みが小さくなると正則化のモデルが単純になるのですか？

私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか？ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか？Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み（x ^ 3およびx ^ 4）がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります（重みの小さい特徴は関数の基礎に似ているため）。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

27 regression machine-learning optimization regularization overfitting

7

Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか？

今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました：してみましょう（例えば正または負など）クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素（不明）を追加します。UNKUNKUNK 定義P（w | c ）= カウント（w 、c ）+ 1カウント（c ）+ | V| +1、P（w|c）=カウント（w、c）+1カウント（c）+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」