タグ付けされた質問 「statistical-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加してください。

5
サポートベクターマシン(SVM)はどのように機能しますか?
サポートベクターマシン(SVM)の仕組みと、線形パーセプトロン、線形判別分析、ロジスティック回帰などの他の線形分類器との違いは何ですか?* (* アルゴリズム、最適化戦略、一般化機能、および実行時の複雑さの根本的な動機の観点から考えています)

2
リッジ回帰が「リッジ」と呼ばれるのはなぜですか、なぜ必要なのですか。が無限になったときに何が起こるのでしょうか。
リッジ回帰係数の推定は、β^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 私の質問は: 場合、上記の式は通常のRSSに還元されることがわかります。場合はどうなりますか?係数の振る舞いに関する教科書の説明がわかりません。λ → ∞λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty 特定の用語の背後にある概念を理解しやすくするために、用語がRIDGE回帰と呼ばれるのはなぜですか?(なぜリッジ?)そして、リッジ回帰と呼ばれる新しい概念を導入する必要があるという通常/一般的な回帰で何が間違っていたのでしょうか? あなたの洞察は素晴らしいでしょう。

3
教師付きクラスタリングまたは分類?
2番目の質問は、Web上のどこかで「教師ありクラスタリング」について話している議論で見つけたということです。私が知る限り、クラスタリングは教師なしです。「分類」に関する違いは何ですか? それについて話している多くのリンクがあります: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf など...

3
データブレンドとは
この用語は、メソッド関連のスレッドで頻繁に使用されます。 されたブレンドデータマイニングと統計的学習における具体的な方法を?Googleから関連する結果を取得できません。 ブレンディングは多くのモデルの結果を混合し、より良い結果をもたらしているようです。それについてもっと知るのに役立つリソースはありますか?

1
さまざまなトポロジのさまざまな推定量の収束動作について説明する必要があるのはなぜですか?
異なる機能空間での推定の収束について述べている本「代数幾何学と統計学習理論」の最初の章では、ベイジアン推定はシュワルツ分布トポロジーに対応し、最尤推定はsup-normトポロジーに対応していると述べています。 (7ページ): たとえば、sup-norm、LpLpL^p -norm、ヒルベルト空間の弱いトポロジ、シュワルツ分布トポロジなどです。収束が成立するかどうかは、関数空間のトポロジに大きく依存します。ベイズ推定はシュワルツ分布トポロジーに対応しますが、最尤法または事後法はsup-normに対応します。この違いは、特異モデルの学習結果に大きく影響します。L2L2L^2Kn(w )→ K(w )Kn(w)→K(w)K_n(w)\to K(w) ここで、とはそれぞれ、経験的KL発散(観測値に対する合計)と真のモデルとパラメーターモデル(パラメーターを使用)間の真のKL発散(積分とデータ分布)です。Kn(w)Kn(w)K_n(w)K(w )K(w)K(w)www 誰もが説明を与えることができますか、本のどの場所に正当性があるのか​​を教えてくれますか?ありがとうございました。 更新:著作権の内容は削除されました。

1
ポアソン分布からのデータのロジスティック回帰
yがクラスラベル(0または1)であり、xがデータである、いくつかの識別的分類方法、特にロジスティック回帰について話しているいくつかの機械学習ノートから、それは次のように言われます: もし、及びX | Y = 1 〜P 、O 、I 、S 、S 、O 、N(λ 1)、次いで、P (Y | Xは)ロジスティックであろう。x|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0)x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1)p(y|x)p(y|x)p(y|x) なぜこれが本当ですか?

1
2クラスモデルのマルチクラス問題への拡張
Adaboostに関するこのペーパーでは、2クラスモデルをKクラスの問題に拡張するための提案とコード(17ページ)を示します。このコードを一般化して、さまざまな2クラスモデルを簡単にプラグインして結果を比較できるようにします。ほとんどの分類モデルには数式インターフェースとpredictメソッドがあるため、これの一部は比較的簡単なはずです。残念ながら、2クラスモデルからクラス確率を抽出する標準的な方法が見つからないため、各モデルにはカスタムコードが必要になります。 Kクラス問題を2クラス問題に分解し、Kモデルを返すために私が書いた関数は次のとおりです。 oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) names(models) <- unique(Y) info <- list(X=X, Y=Y, classes=unique(Y)) out <- list(models=models, info=info) class(out) <- 'oneVsAll' return(out) } これは、各モデルを反復処理して予測を行うために私が書いた予測方法です。 predict.oneVsAll <- …

2
変数のベクトルはどのように超平面を表すことができますか?
Elements of Statistical Learningを読んでいます。12ページ(セクション2.3)では、線形モデルは次のように表記されています。 Yˆ= XTβˆY^=XTβ^\widehat{Y} = X^{T} \widehat{\beta} ...ここで、は、予測子/独立変数/入力の列ベクトルの転置です。(これは、そうではない、このするであろう「全てのベクトルは列ベクトルであると仮定される」以前の状態X Tは、行ベクトルとβ列ベクトル?)バツTXTX^{T}バツTXTX^{T}βˆβ^\widehat{\beta} は「1」が含まれており、対応する係数と乗算されて(定数)切片が与えられます。バツXX111 それは続けて言う: 次元の入出力空間、(X 、Yは)超平面を表します。定数がXに含まれている場合、超平面は原点を含み、部分空間です。ない場合には、切断アフィン集合であるYは、点でγ軸 (0 、^ β 0)。(p + 1 )(p+1)(p + 1)(X、Y ˆ)(X, Y^)(X,\ \widehat{Y})バツXXYYY(0 、β 0ˆ)(0, β0^)(0,\ \widehat{\beta_0}) 「」、インターセプトの「予測因子の連結によって形成されるベクトル記述1」とYを?そして、なぜ「を含めない1における」X「確かにいることを、原点を通過するように超平面を強制1」を掛けたことがある^ β 0?(X、Y ˆ)(X, Y^)(X,\ \widehat{Y})111YˆY^\widehat{Y}111バツXX111β0ˆβ0^\widehat{\beta_0} その本を理解できていない。リソースへのヘルプ/アドバイス/リンクは非常に高く評価されます。

1
情報ジオメトリの明確化
この質問は、Amariによる論文「曲線指数ファミリの曲がった幾何学-曲率と情報損失」に関係しています。 テキストは次のようになります。 LET であるn個の座標系との確率分布の次元マニホールドθ = (θ 1、... 、θ N)、p個のθ(X )> 0が想定され...Sん= { pθ}Sn={pθ}S^n=\{p_{\theta}\}んnnθ = (θ1、… 、θん)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)pθ(x )> 0pθ(x)>0p_{\theta}(x)>0 私たちは、すべてのポイントを考えることがのS N機能搭載など、ログのp θ(X )のXを ...θθ\thetaSんSnS^nログpθ(x )log⁡pθ(x)\log p_{\theta}(x)バツxx ましょうの正接空間であるS Nにおけるθ、大まかに言えば、である、の小さな近傍の線形化バージョンで識別θでS N。してみましょうE I(θ )、私は= 1 、... 、n個の自然の基礎となるT θ協調システムに関連付けられています...TθTθT_{\theta}SんSnS^nθθ\thetaθθ\thetaSnSnS^nei(θ),i=1,…,nei(θ),i=1,…,ne_i(\theta), i=1,\dots,nTθTθT_{\theta} 各点のでのS N機能搭載ログPのθ(X )のXは、考えるのが自然であるE I(θ )におけるθの関数として表すE I(θ )= ∂をθθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxxei(θ)ei(θ)e_i(\theta)θθ\thetaei(θ)=∂∂θilogpθ(x).ei(θ)=∂∂θilog⁡pθ(x).e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x). 私は最後の声明を理解していません。これは、上記の論文のセクション2に記載されています。接線空間の基準は上記の方程式でどのように与えられますか?この種の資料に精通しているこのコミュニティの誰かが私がこれを理解するのを助けてくれると助かります。ありがとう。 更新1: 場合、私は(@aginenskyから)ことを同意するが、、その後直線的に独立している∂∂∂θipθ∂∂θipθ\frac{\partial}{\partial\theta_i}p_{\theta}これらが最初の場所で接空間のメンバーであるかも線形独立であるが、非常に明確ではありません。それでは、どの缶∂∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta}接空間のための基礎として考慮されます。どんな助けでもありがたいです。∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta} …


2
ランダムフォレストは、不均衡なデータ分類に適したオプションですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。 データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか?

1
回帰関数の導出によって混乱
Hastie、Tibshirani、Friedman によるThe Elements of Statistical Learningのコピーを入手しました。第2章(教師あり学習の概要)セクション4(統計的意思決定理論)では、回帰関数の導出について説明しています。 ましょ表す実数値ランダム入力ベクトル、および関節分布を有する実数値ランダム出力変数、。入力値を指定してを予測するための関数を探します。この理論では、予測でペナルティを課すために損失関数必要であり、最も一般的で便利なのは二乗誤差損失です:です。これにより、を選択するための基準が導かれます。 Y ∈ R PとR (X 、Y )F (X )Y X L (Y 、F (X ))L (Y 、F (X ))= (Y - F (X ))2、FX∈RpX∈RpX \in \mathbb{R}^pY∈RY∈RY\in\mathbb{R}Pr(X,Y)Pr(X,Y)Pr(X,Y)f(X)f(X)f(X)YYYXXXL(Y,f(X))L(Y,f(X))L(Y,f(X))L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y −f(X))^2fff EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}予想される(二乗)予測エラー。 私はセットアップと動機を完全に理解しています。私の最初の混乱は、彼はまたはを意味しますか?次に、という表記を見たことがない。その意味を私に説明してくれた人はいますか?それだけではある?悲しいかな、私の混乱はそこで終わりません、 E [ (Y − …

2
統計学習の選択肢の要素
Elements of Statistical Learning(ESL)は、素晴らしい幅と深さがある本です。これらの独自の研究が行われた論文を引用することにより、非常に現代的な方法の本質をカバーしています。しかし、私は本の言語が非常に非常に禁止されていることに本当に気づきました。概念について話し合う簡単な方法があると思います。ESLは単純に圧倒的すぎると思います。誰かが初心者にやさしい代替案を提案できますか? 私はESLの兄弟を見つけました:統計学習の概要。それは私が読み、理解したいトーンです。それは物事を馬鹿にすることなく、収容可能です。SLの紹介に似ているものはありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.