タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

6
どの機能がより重要かを推定するには、どの機械学習アルゴリズムが適していますか?
変更しない機能の最小数と、変更して結果に大きな影響を与える可能性のあるいくつかの追加機能を持つデータがあります。私のデータセットは次のようになります。 機能は、A、B、C(常に存在)、およびD、E、F、G、H(時々存在)です。 A = 10, B = 10, C = 10 outcome = 10 A = 8, B = 7, C = 8 outcome = 8.5 A = 10, B = 5, C = 11, D = 15 outcome = 178 A = 10, B = 10, C = 10, …


1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Duda et alのパターン分類における無料の昼食定理の理解
セクション9.2「ダダ、ハート、コウノトリのパターン分類における分類子の固有の優位性の欠如」で使用されている表記について質問があります。まず、本から関連するテキストをいくつか引用します。 簡単にするために、トレーニングセットDDDがパターンxixix^iおよび関連するカテゴリラベル yi=±1yi=±1y_i = ± 1で...で構成される2つのカテゴリの問題を考えます。。。、ni=1,...,ni=1,...,ni = 1,..., nは、学習する未知のターゲット関数によって生成されます。F(x)F(x)F(x)ここで、yi=F(xi)yi=F(xi)y_i = F(x^i)です。 ましょ(離散)の仮説のセット、または学習するパラメータの可能なセットを示します。特定の仮説H (X )∈ H ツリーの量子化されたニューラルネットワークにおける重み、または機能的モデルのパラメータ0、または決定のセットによって記述することができる、など。HHHh(x)∈Hh(x)∈Hh(x) \in H さらに、は、アルゴリズムがトレーニング後に仮説hを生成する事前確率です。これはhが正しい確率ではないことに注意してください。P(h)P(h)P(h)hhhhhh 次に、は、アルゴリズムがデータDでトレーニングされたときに仮説hを生成する確率を示します。最近傍や決定木などの決定論的学習アルゴリズムでは、 P (h | D )は、単一の仮説hを除いてどこでもゼロになります。確率的手法(ランダムな初期重みから学習されたニューラルネットワークなど)または確率的ボルツマン学習の場合、P (h | D )は広範な分布になります。P(h|D)P(h|D)P(h|D)hhhDDDP(h|D)P(h|D)P(h|D)hhhP(h|D)P(h|D)P(h|D) してみましょうゼロ-1または他の損失関数のエラーこと。EEE 真の関数があり、k番目の候補学習アルゴリズムの確率がP k(h (x )| D )である場合、予想されるトレーニングセット分類誤差はE k(E | F 、n )= Σ X ∉ D P (X )[ 1 - …

2
複数のターゲットまたはクラスを予測しますか?
複数のイベント(たとえば、ダイスのロールとコインのトスの両方)を予測しようとする予測モデルを構築しているとします。私が精通しているほとんどのアルゴリズムは1つのターゲットのみで機能するため、この種のことに対する標準的なアプローチがあるかどうか疑問に思っています。 2つの選択肢があります。おそらく最も素朴なアプローチは、単純にそれらを2つの異なる問題として扱い、結果を結合することです。ただし、2つのターゲットが独立していない場合(および多くの場合、それらは非常に依存している可能性があります)、これには重大な欠点があります。 私にとってより賢明なアプローチは、結合されたターゲット属性を作成することです。そうダイと硬貨の場合には、我々が持っているであろうの状態((1 、H )、(1 、T )、(2 、H )、など)。ただし、これにより、複合ターゲットの状態/クラスの数がかなり大きくなることがあります(2つのサイコロがある場合など)。さらに、これは、一方の属性がカテゴリ属性でもう一方が数値属性の場合(たとえば、気温と降水量のタイプを予測する場合)、奇妙に思えます。6 ⋅ 2 = 126⋅2=126\cdot 2=12(1 、H)、(1 、T)、(2 、H)(1、H)、(1、T)、(2、H)(1, H), (1, T), (2, H) この種のことに対する標準的なアプローチはありますか?あるいは、これを処理するために特別に設計された学習アルゴリズムはありますか?

2
SVM、変数相互作用およびトレーニングデータの適合
2つの一般的/より理論的な質問があります。 1)予測モデルを構築するときに、SVMが変数の相互作用をどのように処理するか興味があります。たとえば、f1とf2の2つの機能があり、ターゲットがf1、f2に依存し、f1 * f2(または何らかの関数h(f1、f2))に依存する場合、SVMは適合します(OOSだけでなくトレーニングデータにも)フィーチャにf1、f2、h(f1、f2)を含めると、f1とf2を含めるだけで改善されますか?SVMアルゴリズムは機能の相互作用を処理しますか?SVMがより高次元の空間で超平面を作成しようとする方法と同じように思えますが、質問したいとは思いません。 2)トレーニングデータにSVMをフィッティングするとき、十分な機能と最適なパラメーター(ブルートフォース検索など)を見つけると、SVMは常にトレーニングデータに簡単に適合しますか?正しいことを言ったかどうかはわかりませんが、基本的に、フィーチャに十分な分散/ノイズがある場合、SVMは常にトレーニングデータに100%適合しますか?逆に、SVMがトレーニングデータに100%適合しない場合、データにキャプチャされていないターゲット変数に影響する情報(または他の機能)があることを意味しますか? ありがとう 小さな説明。カーネルSVMを具体的に参照しています

2
トレーニングデータのグループサイズが等しくないSVM
1つのグループが他のグループよりも多く表示されるトレーニングデータからSVMを構築しようとしています。ただし、グループは最終的なテストデータで等しく表されます。そのため、Rパッケージインターフェイスのclass.weightsパラメーターを使用して、トレーニングデータの2つのグループの影響のバランスを取りたいと思います。e1071libsvm これらの重みの指定方法が正確にわからないため、少しテストを設定しました。 いくつかのヌルデータを生成します(ランダムな特徴、グループラベル間の2:1の比率) class.weightsパラメータを設定してsvmを適合させます。 多数の新しいヌルデータセットを予測し、クラスの割合を調べます。 異なるヌルトレーニングセットに対してプロセス全体を何度も複製します。 私が使用しているRコードは次のとおりです。 nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' we …

9
統計的手法の広く概念的な概要のための本
シミュレーション/予測/関数推定などの統計分析の可能性に非常に興味があります。 しかし、私はそれについてあまり知りませんし、私の数学的な知識はまだかなり限られています-私はソフトウェア工学の学部生です。 線形回帰とその他の回帰、ベイジアン法、モンテカルロ法、機械学習など、読み続けている特定のことから始められる本を探しています。両方を組み合わせた本がありました。 できれば、技術的な詳細ではなく概念的に物事を説明してください。統計には非常に多くの危険な落とし穴があることを理解しているため、統計を非常に直感的にしたいと思います。 価値があると思われるトピックの理解を深めるために、もっと本を読むつもりはありません。


2
Akinator.comおよびNaive Bayes分類器
コンテキスト:私は、uniコースの統計で(半分忘れられた)経験があるプログラマーです。最近、私はhttp://akinator.comにつまずき、それを失敗させようといくつかの時間を費やしました。そして、誰がそうではなかったのですか?:) 私はそれがどのように機能するかを調べることにしました。グーグルで関連するブログ投稿を読んで、結果のミックスに私の(限られた)知識の一部を追加した後、次のモデルを思いつきます(間違った表記法を使用することを確信しています。そのために私を殺さないでください): サブジェクト(S)と質問(Q)があります。予測子の目標は、これまでに収集された質問と回答が与えられると、ユーザーが考えている主題である最大の事後確率を持つ主題Sを選択することです。 ゲームGを質問と回答のセットとします:。{q1,a1},{q2,a2}...{qn,an}{q1,a1},{q2,a2}...{qn,an}\{q_1, a_1\}, \{q_2, a_2\} ... \{q_n, a_n\} 次に、予測子はP (S | G )= P (G | S )∗ P (S )を探します。P(S|G)=P(G|S)∗P(S)P(G)P(S|G)=P(G|S)∗P(S)P(G)P(S|G) = \frac{P(G|S) * P(S)}{P(G)} 被験者の事前確率()は、被験者が推測された回数をゲームの総数で割ったものになります。P(S)P(S)P(S) すべての回答が独立しているという仮定を立てると、ゲームGが与えられた場合に被験者Sの尤度を次のように計算できます。 P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S) = \prod_{i=1..n} P(\{q_i, a_i\} | S) 使用者が与えられた主題を持っているときにどの質問と回答が与えられたかを追跡すれば、計算できます。P({qi,ai}|S)P({qi,ai}|S)P(\{q_i, a_i\} | S) P(q,a|S)=answer a was given to question q in the game …



1
RMSPropとAdamとSGD
RMSProp、Adam、SGDのネットワークを使用して、EMNIST検証セットの実験を行っています。SGD(学習率0.1)とドロップアウト(0.1ドロップアウト確率)、およびL2正則化(1e-05ペナルティ)で87%の精度を達成しています。同じ正確な構成をRMSPropとAdamでテストし、初期学習率0.001をテストすると、85%の精度と大幅に滑らかでないトレーニングカーブが得られます。この動作を説明する方法がわかりません。トレーニング曲線が滑らかでなく、精度が低く、エラー率が高い理由は何ですか?

3
ワンホットエンコーディングが必要なアルゴリズムは何ですか?
順序付けされていないカテゴリ変数にワンホットエンコーディングをいつ使用するか、いつ使用しないかはわかりません。アルゴリズムが距離メトリックを使用して類似性を計算するときはいつでもそれを使用します。順序付けされていないカテゴリカル機能をワンホットエンコードする必要があるアルゴリズムのタイプと、そうでないアルゴリズムについて、一般的な経験則を教えてください。

4
CNNでは、アップサンプリングと転置畳み込みは同じですか?
「アップサンプリング」と「転置たたみ込み」の両方の用語は、「デコンボリューション」を行うときに使用されます(<-良い用語ではありませんが、ここで使用します)。もともと同じ意味だと思っていましたが、これらの記事を読んでみると違うようです。誰かが明確にしていただけますか? 転置畳み込み:畳み​​込みニューラルネットワークを介して損失を伝播するときに使用できるように見えます。 http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdf、セクション4「畳み込み層の場合...」 アップサンプリングは:私たちはconvnet-decovnet構造の大きな入力に小さい入力からアップサンプリングしたいときに我々はそれを使用するように思えます。 https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.