統計とビッグデータ machine-learning

6

変更しない機能の最小数と、変更して結果に大きな影響を与える可能性のあるいくつかの追加機能を持つデータがあります。私のデータセットは次のようになります。機能は、A、B、C（常に存在）、およびD、E、F、G、H（時々存在）です。 A = 10, B = 10, C = 10 outcome = 10 A = 8, B = 7, C = 8 outcome = 8.5 A = 10, B = 5, C = 11, D = 15 outcome = 178 A = 10, B = 10, C = 10, …

12 machine-learning feature-selection

1

サポートベクターの数とフィーチャの数の関係

特定のデータセットに対してSVMを実行し、次の観察を行いました。分類器を構築するための機能の数を変更すると、結果のサポートベクトルの数も変更されます。この種のシナリオを説明する方法を知りたいです。

12 machine-learning classification svm kernel-trick

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

Duda et alのパターン分類における無料の昼食定理の理解

セクション9.2「ダダ、ハート、コウノトリのパターン分類における分類子の固有の優位性の欠如」で使用されている表記について質問があります。まず、本から関連するテキストをいくつか引用します。簡単にするために、トレーニングセットDDDがパターンxixix^iおよび関連するカテゴリラベル yi=±1yi=±1y_i = ± 1で...で構成される2つのカテゴリの問題を考えます。。。、ni=1,...,ni=1,...,ni = 1,..., nは、学習する未知のターゲット関数によって生成されます。F(x)F(x)F(x)ここで、yi=F(xi)yi=F(xi)y_i = F(x^i)です。ましょ（離散）の仮説のセット、または学習するパラメータの可能なセットを示します。特定の仮説H （X ）∈ H ツリーの量子化されたニューラルネットワークにおける重み、または機能的モデルのパラメータ0、または決定のセットによって記述することができる、など。HHHh(x)∈Hh(x)∈Hh(x) \in H さらに、は、アルゴリズムがトレーニング後に仮説hを生成する事前確率です。これはhが正しい確率ではないことに注意してください。P(h)P(h)P(h)hhhhhh 次に、は、アルゴリズムがデータDでトレーニングされたときに仮説hを生成する確率を示します。最近傍や決定木などの決定論的学習アルゴリズムでは、 P （h | D ）は、単一の仮説hを除いてどこでもゼロになります。確率的手法（ランダムな初期重みから学習されたニューラルネットワークなど）または確率的ボルツマン学習の場合、P （h | D ）は広範な分布になります。P(h|D)P(h|D)P(h|D)hhhDDDP(h|D)P(h|D)P(h|D)hhhP(h|D)P(h|D)P(h|D) してみましょうゼロ-1または他の損失関数のエラーこと。EEE 真の関数があり、k番目の候補学習アルゴリズムの確率がP k（h （x ）| D ）である場合、予想されるトレーニングセット分類誤差はE k（E | F 、n ）= Σ X ∉ D P （X ）[ 1 - …

12 machine-learning

2

複数のターゲットまたはクラスを予測しますか？

複数のイベント（たとえば、ダイスのロールとコインのトスの両方）を予測しようとする予測モデルを構築しているとします。私が精通しているほとんどのアルゴリズムは1つのターゲットのみで機能するため、この種のことに対する標準的なアプローチがあるかどうか疑問に思っています。 2つの選択肢があります。おそらく最も素朴なアプローチは、単純にそれらを2つの異なる問題として扱い、結果を結合することです。ただし、2つのターゲットが独立していない場合（および多くの場合、それらは非常に依存している可能性があります）、これには重大な欠点があります。私にとってより賢明なアプローチは、結合されたターゲット属性を作成することです。そうダイと硬貨の場合には、我々が持っているであろうの状態（（1 、H ）、（1 、T ）、（2 、H ）、など）。ただし、これにより、複合ターゲットの状態/クラスの数がかなり大きくなることがあります（2つのサイコロがある場合など）。さらに、これは、一方の属性がカテゴリ属性でもう一方が数値属性の場合（たとえば、気温と降水量のタイプを予測する場合）、奇妙に思えます。6 ⋅ 2 = 126⋅2=126\cdot 2=12（1 、H）、（1 、T）、（2 、H）（1、H）、（1、T）、（2、H）(1, H), (1, T), (2, H) この種のことに対する標準的なアプローチはありますか？あるいは、これを処理するために特別に設計された学習アルゴリズムはありますか？

12 machine-learning classification predictive-models multi-class

2

SVM、変数相互作用およびトレーニングデータの適合

2つの一般的/より理論的な質問があります。 1）予測モデルを構築するときに、SVMが変数の相互作用をどのように処理するか興味があります。たとえば、f1とf2の2つの機能があり、ターゲットがf1、f2に依存し、f1 * f2（または何らかの関数h（f1、f2））に依存する場合、SVMは適合します（OOSだけでなくトレーニングデータにも）フィーチャにf1、f2、h（f1、f2）を含めると、f1とf2を含めるだけで改善されますか？SVMアルゴリズムは機能の相互作用を処理しますか？SVMがより高次元の空間で超平面を作成しようとする方法と同じように思えますが、質問したいとは思いません。 2）トレーニングデータにSVMをフィッティングするとき、十分な機能と最適なパラメーター（ブルートフォース検索など）を見つけると、SVMは常にトレーニングデータに簡単に適合しますか？正しいことを言ったかどうかはわかりませんが、基本的に、フィーチャに十分な分散/ノイズがある場合、SVMは常にトレーニングデータに100％適合しますか？逆に、SVMがトレーニングデータに100％適合しない場合、データにキャプチャされていないターゲット変数に影響する情報（または他の機能）があることを意味しますか？ありがとう小さな説明。カーネルSVMを具体的に参照しています

12 machine-learning predictive-models svm interaction

2

トレーニングデータのグループサイズが等しくないSVM

1つのグループが他のグループよりも多く表示されるトレーニングデータからSVMを構築しようとしています。ただし、グループは最終的なテストデータで等しく表されます。そのため、Rパッケージインターフェイスのclass.weightsパラメーターを使用して、トレーニングデータの2つのグループの影響のバランスを取りたいと思います。e1071libsvm これらの重みの指定方法が正確にわからないため、少しテストを設定しました。いくつかのヌルデータを生成します（ランダムな特徴、グループラベル間の2：1の比率） class.weightsパラメータを設定してsvmを適合させます。多数の新しいヌルデータセットを予測し、クラスの割合を調べます。異なるヌルトレーニングセットに対してプロセス全体を何度も複製します。私が使用しているRコードは次のとおりです。 nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' we …

12 r machine-learning svm

9

統計的手法の広く概念的な概要のための本

シミュレーション/予測/関数推定などの統計分析の可能性に非常に興味があります。しかし、私はそれについてあまり知りませんし、私の数学的な知識はまだかなり限られています-私はソフトウェア工学の学部生です。線形回帰とその他の回帰、ベイジアン法、モンテカルロ法、機械学習など、読み続けている特定のことから始められる本を探しています。両方を組み合わせた本がありました。できれば、技術的な詳細ではなく概念的に物事を説明してください。統計には非常に多くの危険な落とし穴があることを理解しているため、統計を非常に直感的にしたいと思います。価値があると思われるトピックの理解を深めるために、もっと本を読むつもりはありません。

12 r regression machine-learning references simulation

2

マルコフモデルのパラメーター数

HMMモデルの選択にBICを使用したい： BIC = -2*logLike + num_of_params * log(num_of_data) それでは、HMMモデルのパラメーターの数をどのように数えますか。次のデータがある単純な2状態HMMを考えます。 data = [1 2 1 1 2 2 2 1 2 3 3 2 3 2 1 2 2 3 4 5 5 3 3 2 6 6 5 6 4 3 4 4 4 4 4 4 3 3 2 …

12 machine-learning model-comparison bic hidden-markov-model

2

Akinator.comおよびNaive Bayes分類器

コンテキスト：私は、uniコースの統計で（半分忘れられた）経験があるプログラマーです。最近、私はhttp://akinator.comにつまずき、それを失敗させようといくつかの時間を費やしました。そして、誰がそうではなかったのですか？:) 私はそれがどのように機能するかを調べることにしました。グーグルで関連するブログ投稿を読んで、結果のミックスに私の（限られた）知識の一部を追加した後、次のモデルを思いつきます（間違った表記法を使用することを確信しています。そのために私を殺さないでください）：サブジェクト（S）と質問（Q）があります。予測子の目標は、これまでに収集された質問と回答が与えられると、ユーザーが考えている主題である最大の事後確率を持つ主題Sを選択することです。ゲームGを質問と回答のセットとします：。{q1,a1},{q2,a2}...{qn,an}{q1,a1},{q2,a2}...{qn,an}\{q_1, a_1\}, \{q_2, a_2\} ... \{q_n, a_n\} 次に、予測子はP （S | G ）= P （G | S ）∗ P （S ）を探します。P(S|G)=P(G|S)∗P(S)P(G)P(S|G)=P(G|S)∗P(S)P(G)P(S|G) = \frac{P(G|S) * P(S)}{P(G)} 被験者の事前確率（）は、被験者が推測された回数をゲームの総数で割ったものになります。P(S)P(S)P(S) すべての回答が独立しているという仮定を立てると、ゲームGが与えられた場合に被験者Sの尤度を次のように計算できます。 P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S) = \prod_{i=1..n} P(\{q_i, a_i\} | S) 使用者が与えられた主題を持っているときにどの質問と回答が与えられたかを追跡すれば、計算できます。P({qi,ai}|S)P({qi,ai}|S)P(\{q_i, a_i\} | S) P(q,a|S)=answer a was given to question q in the game …

12 machine-learning naive-bayes

6

クラスター分析の紹介として推奨される本や記事はありますか？

私は小さな（200M）テキストのコーパスに取り組んでいます。これをクラスター分析で調べたいと思います。そのテーマに関するどの本や記事をお勧めしますか？

12 machine-learning references clustering

1

「バリエーション」とはどういう意味ですか？

「変分」の使用は常に変分推論による最適化を指しますか？例：「バリエーションオートエンコーダー」「変分ベイズ法」「変分繰り込みグループ」

12 machine-learning optimization inference

1

RMSPropとAdamとSGD

RMSProp、Adam、SGDのネットワークを使用して、EMNIST検証セットの実験を行っています。SGD（学習率0.1）とドロップアウト（0.1ドロップアウト確率）、およびL2正則化（1e-05ペナルティ）で87％の精度を達成しています。同じ正確な構成をRMSPropとAdamでテストし、初期学習率0.001をテストすると、85％の精度と大幅に滑らかでないトレーニングカーブが得られます。この動作を説明する方法がわかりません。トレーニング曲線が滑らかでなく、精度が低く、エラー率が高い理由は何ですか？

12 machine-learning optimization sgd adam

3

ワンホットエンコーディングが必要なアルゴリズムは何ですか？

順序付けされていないカテゴリ変数にワンホットエンコーディングをいつ使用するか、いつ使用しないかはわかりません。アルゴリズムが距離メトリックを使用して類似性を計算するときはいつでもそれを使用します。順序付けされていないカテゴリカル機能をワンホットエンコードする必要があるアルゴリズムのタイプと、そうでないアルゴリズムについて、一般的な経験則を教えてください。

12 machine-learning categorical-data categorical-encoding data-preprocessing

4

CNNでは、アップサンプリングと転置畳み込みは同じですか？

「アップサンプリング」と「転置たたみ込み」の両方の用語は、「デコンボリューション」を行うときに使用されます（<-良い用語ではありませんが、ここで使用します）。もともと同じ意味だと思っていましたが、これらの記事を読んでみると違うようです。誰かが明確にしていただけますか？転置畳み込み：畳み込みニューラルネットワークを介して損失を伝播するときに使用できるように見えます。 http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdf、セクション4「畳み込み層の場合...」アップサンプリングは：私たちはconvnet-decovnet構造の大きな入力に小さい入力からアップサンプリングしたいときに我々はそれを使用するように思えます。 https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

12 machine-learning neural-networks conv-neural-network transposed-convolution

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」