統計とビッグデータ machine-learning

1

標準勾配降下法は、トレーニングデータセット全体の勾配を計算します。 for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 事前に定義された数のエポックの場合、最初にパラメーターベクトルparamsに対するデータセット全体の損失関数の勾配ベクトルweights_gradを計算します。対照的に、確率的勾配降下法は、各トレーニング例x（i）およびラベルy（i）のパラメーター更新を実行します。 for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params - learning_rate * params_grad SGDははるかに高速であると言われています。ただし、まだすべてのデータポイントでループが発生している場合、それがはるかに高速になる方法はわかりません。GDの勾配の計算は、各データポイントのGDの計算よりもはるかに遅いですか？コードはここから来ます。

15 machine-learning optimization gradient-descent computational-statistics sgd

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

統計アルゴリズム開発者候補者にとって、面接に適した質問は何ですか？

統計/機械学習/データマイニングのコンテキストにおけるアルゴリズム開発者/研究者の立場について、人々にインタビューしています。具体的には、基礎となる理論に対する候補者の親しみやすさ、理解、流動性、たとえば期待値と分散の基本的な性質、一般的な分布などを判断するための質問を探しています。私の現在のゴーへの質問は：「未知数がある。我々は推定したいと思い、この目的を達成するために、我々は推定持っY 1、Y 2、... 、Y nは与えられた、、すべての公平かつ独立しており、それぞれに既知の分散、それぞれ異なる。最適な推定量を見つけます。XXXY1,Y2,…,YnY1,Y2,…,YnY_1, Y_2, \ldots, Y_nXXXσ2iσi2\sigma_i^2Y=f(Y1,…,Yn)Y=f(Y1,…,Yn）Y=f(Y_1,\ldots, Y_n) 真面目な候補者なら誰でも簡単に処理できると期待しています（計算に時間をかけます）が、関連する分野からの候補者が、ほんの少しでも進歩しなかったのではないかと驚いています。したがって、私はそれを良い、差別的な問題だと考えています。この質問の唯一の問題は、それが1つしかないことです。これには他にどのような質問を使用できますか？または、そのような質問のコレクションはどこで見つけることができますか？

15 machine-learning probability distributions

2

PAC学習理論とはどういう意味ですか？

私は機械学習が初めてです。私は機械学習（スタンフォード大学）のコースを勉強していますが、この理論が何を意味するのか、そしてその有用性は何なのか理解できませんでした。誰かが私のためにこの理論を詳述できるかどうか疑問に思っています。この理論はこの方程式に基づいています。

15 machine-learning probability pac-learning

3

Kneser-Neyスムージングでは、見えない単語はどのように処理されますか？

私が見たものから、（二次）Kneser-Ney平滑化式は何らかの形で次のように与えられます P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 正規化係数次のように与えられますλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} および単語w_nの継続確率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ここで、N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)は、コンテキストwの数www、または単純に、特定の単語wの前にある個別の単語\ bulletの数です。私が理解したことから、式は再帰的に適用できます。∙∙\bulletwww 現在、これはさまざまなnグラム長の未知のコンテキストで既知の単語を適切に処理しますが、説明されていないのは、辞書にない単語がある場合の対処方法です。ユニグラムの再帰ステップでP_ {cont}（/）= P ^ 0_ {KN}（/）= \ …

15 machine-learning natural-language naive-bayes smoothing language-models

3

非常に不均衡な設定でのコスト重視の学習のための提案

数百万行と100列までのデータセットがあります。共通クラスに属するデータセット内のサンプルの約1％を検出したいと思います。最小精度の制約がありますが、非常に非対称なコストのため、特定のリコールにあまり熱心ではありません（10の肯定的な一致が残っていない限り！）この設定でお勧めするアプローチは何ですか？（論文へのリンクは歓迎、実装へのリンクは歓迎）

15 machine-learning classification unbalanced-classes precision-recall

1

統計および機械学習用語のシソーラス

統計および機械学習用語の参照シソーラスはありますか？ウィキペディアの記事にはしばしば同義語が含まれていることを知っていますが、すべての専門用語を知っていることを確認するために、簡単なシソーラス（完全な百科事典）を入手したいと思います。

15 machine-learning terminology

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

gbmパッケージの出力用語の意味？

分類にgbmパッケージを使用しています。予想どおり、結果は良好です。しかし、分類器の出力を理解しようとしています。出力には5つの用語があります。 `Iter TrainDeviance ValidDeviance StepSize Improve` 誰もが各用語の意味、特にImproveの意味を説明できますか。

15 r machine-learning

3

データブレンドとは

この用語は、メソッド関連のスレッドで頻繁に使用されます。されたブレンドデータマイニングと統計的学習における具体的な方法を？Googleから関連する結果を取得できません。ブレンディングは多くのモデルの結果を混合し、より良い結果をもたらしているようです。それについてもっと知るのに役立つリソースはありますか？

15 machine-learning data-mining unsupervised-learning statistical-learning

5

トレーニングデータを増やすと、システム全体の精度にどのような影響がありますか？

トレーニングデータを増やすとシステム全体が改善される状況では、可能な例で誰かが私に要約することはできますか？トレーニングデータを追加すると、データが過剰に適合し、テストデータの精度が低下する可能性があることをいつ検出しますか？これは非常に非特定の質問ですが、特定の状況に固有の質問に答えたい場合は、そうしてください。

15 machine-learning classification dataset precision-recall

2

コインをひっくり返して分類器を組み合わせる

私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。問題は次のとおりです。3つの分類子があります。低い範囲のしきい値でより良いパフォーマンスを提供する分類子A より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。 ROC曲線で見た分類器Cのパフォーマンスはどうなりますか？講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか？講義スライド本が言うこと一方、推奨される本（Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...）は次のように述べています。これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq（p + q = 1）でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント（tA、fA）と（tB、fB）を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。私の知る限り、正しい方法は（本で提案されているように）次のとおりです。分類器Aの最適なしきい値Oaを見つける必要があります分類器Bの最適なしきい値Obを見つける必要があります Cを次のように定義します。 t <Oaの場合、tで分類器Aを使用します t> Obの場合、tで分類器Bを使用 Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。これは正しいです？はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。 OaとObの間のしきい値で分類子AとBを使用することはありません。私の理解が正しくなかった場合、この問題とそれを理解する正しい方法は何ですか？スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか？AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。更新： …

15 machine-learning probability data-visualization classification roc

2

一般的な機械学習アルゴリズムのランタイム分析

誰もが一般的な機械学習アルゴリズム（NN、SVMなどの異なるフレーバー）の実行時分析の要約に言及していますか？

15 machine-learning references algorithms

2

機能の数を増やすと精度は低下しますが、prec / recallは増加します

機械学習は初めてです。現時点では、NLTKとpythonを使用して、ナイーブベイズ（NB）分類器を使用して、3つのクラスの小さなテキストをポジティブ、ネガティブ、またはニュートラルとして分類しています。 300,000のインスタンス（16,924のポジティブ7,477のネガと275,599のニュートラル）で構成されるデータセットを使用していくつかのテストを行った後、フィーチャの数を増やすと、精度は低下しますが、ポジティブおよびネガティブクラスの精度/リコールは増加することがわかりました。これは、NB分類器の通常の動作ですか？より多くの機能を使用する方が良いと言えますか？一部のデータ： Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 F_Measure Class Neutral 0.904684 F_Measure Class Positive 0.223353 F_Measure Class Negative 0.134942 前もって感謝します... 2011/11/26を編集 Naive Bayes分類器を使用して、3つの異なる機能選択戦略（MAXFREQ、FREQENT、MAXINFOGAIN）をテストしました。最初に、精度とクラスごとのF1メジャーを示します。次に、トップ100およびトップ1000の機能でMAXINFOGAINを使用するときに、トレーニングセットを増分してトレインエラーとテストエラーをプロットしました。したがって、FREQENTを使用すると最高の精度が得られますが、MAXINFOGAINを使用したものが最適な分類器であるように思えますが、これは正しいですか？上位100個の機能を使用する場合、バイアスがあり（テストエラーはトレーニングエラーに近い）、トレーニングサンプルを追加しても役に立ちません。これを改善するには、さらに機能が必要です。1000個の機能を使用すると、バイアスは減少しますが、エラーは増加します... さらに機能を追加する必要がありますか？私はこれをどう解釈するか本当にわかりません... 再度、感謝します...

15 machine-learning classification naive-bayes precision-recall

5

異なる分類子の長所と短所の比較を含む優れたリソースとは何ですか？

すぐに使える最高の2クラス分類器とは何ですか？はい、私はそれが百万ドルの質問だと思います、そして、はい、私は知っています無料の昼食定理ないいます、そして私は前の質問も読んでいます：ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか？そして最悪の分類器それでも、私はこの主題についてもっと読むことに興味があります。さまざまな分類器の特性、利点、機能の一般的な比較を含む、良い情報源は何ですか？

15 machine-learning classification references

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」