統計とビッグデータ machine-learning

1

主成分分析（PCA）はデータセットのノイズを除去しますか？PCAがデータセットのノイズを除去しない場合、PCAは実際にデータセットに対して何をしますか？この問題に関して誰かが私を助けてくれませんか。

11 machine-learning neural-networks pca noise

1

休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。この質問を改善してみませんか？詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 2つのセットを比較するために、特に画像のセグメンテーション（たとえば、グラウンドトゥルースとセグメント化された結果の類似性の比較）のために、3つの異なる統計的測定値に出くわします。これらの測定値の違いは何ですか（これらは数学的に非常に似ています）：サイコロジャカードオーバーラップ私はDiceを使用した論文をより頻繁に見ていますが、他の人はJaccardとオーバーラップ係数の使用を提案しています。それらの違いは何ですか？

11 machine-learning similarities dice segmentation jaccard-similarity

2

データポイントよりも多くの変数を使用したモデリング

私は機械学習/モデリングの初心者です。この問題の背景を教えてください。私は、観測数があるデータセットを持っているしかし、変数の数があるのp 〜8000。最初に、このようなデータセットでモデルを構築することを検討することは理にかなっていますか、それとも、リッジ回帰や投げ縄などの変数選択手法を最初に検討する必要がありますか？この状況は過剰適合につながる可能性があることを読みました。それはすべてのMLテクニックに当てはまりますか、それともいくつかのテクニックはこれを他のテクニックよりうまく処理しますか？数学が多すぎなければ、p > nで数学が崩壊し始める理由についての簡単な説明をいただければ幸いです。n<200n<200n<200p∼8000p∼8000p\sim 8000p>np>np>n

11 regression machine-learning dimensionality-reduction penalized

1

RのキャレットパッケージでPCAを使用して前処理するときの主成分の数

のcaretパッケージRをバイナリSVM分類器のトレーニングに使用しています。機能を削減するためにpreProc=c("pca")、呼び出し時に組み込み機能を使用してPCAで前処理していtrain()ます。ここに私の質問があります：キャレットはどのように主成分を選択するのですか？選択された主成分の数は決まっていますか？主成分は、ある程度の説明された差異（80％など）によって選択されていますか？分類に使用する主成分の数を設定するにはどうすればよいですか？（PCAは信頼できる予測推定を可能にするために外部相互検証の一部であるべきことを理解しています。）PCAは内部相互検証サイクル（パラメーター推定）にも実装する必要がありますか？キャレットは相互検証でPCAをどのように実装しますか？

11 r machine-learning pca cross-validation caret

4

ディリクレプロセスモデルの理解と実装

私は、データをクラスター化するためのディリクレプロセスを実装および学習しようとしています（または機械学習の人々が話すように、密度を推定しています）。私はこのトピックについてたくさんの紙を読み、アイデアを思いつきました。しかし、私はまだ混乱しています。ここに一連の質問があります 1）中華レストランモデルとDPの違いは何ですか？2）無限混合モデルとDPの違いは何ですか？すべてを完全に理解するために、中華レストランモデル、Polya Urnモデル、スティック破壊を実装しました。しかし、DPを最初から実装するのは難しいことのようです。Python、R、Matlabを読み書きできます。 1）DPを完全に理解/機能/開発するために読んで改善することをお勧めするコードはありますか？2）私の調査によると、ディリクレプロセスのコードは読みやすくありませんでした。本当に長くて長い（おそらく、明快さよりも効率がより重要であったため）。3）ただし、無限混合モデルには、ディリクレプロセスよりも多くのコードがあります。これらの2つの方法が互いに遠くない場合、IMMを使用できますか？！基本的に、私は新しいモデルを構築したいのですが、車輪を作り直したくありません。コメントありがとうございます多くの人が「ノンパラメトリックベイとDPを使用した無限混合モデル」に関するEdwin Chenのチュートリアルを推奨しているため、更新してください。このチュートリアルには誤解を招くタイトルがあります。DP、特異度、CPR、スティック破壊、Polya-Urnモデルのさまざまな表現のみをカバーしています。そして最後に、彼はscikitのMixture Modelを使用して、各クラスターでいくつかのヒストグラムを作成しています。

11 machine-learning clustering dirichlet-process

2

再構築とKL損失変分オートエンコーダーのバランス

顔のデータセットで条件付き変分オートエンコーダをトレーニングしています。KLL損失を再構成損失項に等しく設定すると、オートエンコーダーがさまざまなサンプルを生成できないようです。私はいつも同じタイプの顔が現れます：これらのサンプルはひどいです。ただし、KLL損失の重みを0.001減らすと、妥当なサンプルが得られます。問題は、学習された潜在空間が滑らかでないことです。潜在補間を実行しようとしたり、ランダムサンプルを生成しようとしたりすると、迷惑になります。KLL項の重みが小さい（0.001）場合、次の損失動作が観察されます。VLL損失（再構成項）が減少する一方で、KLLossは増加し続けることに注意してください。潜在空間の次元も増やしてみましたが、うまくいきませんでした。ここで、2つの損失項の重みが等しい場合、KLL項が支配的であるが、再構成損失の減少を許容しないことに注意してください。これは恐ろしい再建をもたらします。これらの2つの損失項のバランスを取る方法、またはオートエンコーダがスムーズで補間的な潜在空間を学習して妥当な再構成を生成できるように、他に可能なことを提案しますか？

11 machine-learning computer-vision autoencoders

1

エラー指標としてのエントロピーがなぜ過剰適合につながるのですか？

ジョン・ラングフォードの投稿を引用したKDnuggetsに関するこの投稿は、エラーの指標として使用するとエントロピーと相互情報が過剰適合につながる可能性があると述べています。これについて詳しく説明していただけますか？

11 machine-learning error overfitting entropy

1

いつ交差検証を使用しないのですか？

サイトを読んだとき、ほとんどの回答は、相互検証が機械学習アルゴリズムで実行されるべきであることを示唆しています。しかし、「機械学習について」という本を読んでいるときに、相互検証を使用しない方がよい演習があることがわかりました。私は本当に混乱しています。データ全体のトレーニングアルゴリズムが交差検証よりも優れているのはいつですか？実際のデータセットで発生しますか？ましょうはk個の仮説クラスです。あなたが与えられていると仮定メートル例を訓練し、あなたがクラス学びたいIID Hを= ∪ kは、私は= 1 H Iを。2つの代替アプローチを検討してください。H1,...,HkH1,...,HkH_1,...,H_kmmmH=∪ki=1HiH=∪i=1kHiH=\cup^k_{i=1}H_i ERMルールを使用してmの例でを学ぶHHHmmm サイズのトレーニングセットにm個の例を分割及び大きさの検証セットα Mいくつかについて、α ∈ （0 、1 ）。次に、検証を使用してモデル選択のアプローチを適用します。すなわち、Fiは各クラスの訓練RST H Iに（1 - α ）のmに対するERMルール使用トレーニング例をH Iを、およびlet H 1、... 、Hの kは(1−α)m(1−α)m(1−\alpha)mαmαm\alpha mα∈(0,1)α∈(0,1)\alpha\in(0,1)HiHiH_i(1−α)m(1−α)m(1−\alpha)mHiHiH_ih^1,…,h^kh^1,…,h^k\hat{h}_1,\ldots,\hat{h}_k結果の仮説である。第二は、FIの有限クラスに対してERMルールを適用{ H 1、... 、Hの K }にαのm個の検証例。h^1,…,h^kh^1,…,h^k\hat{h}_1,\ldots,\hat{h}_kαmαm\alpha m 最初の方法が2番目の方法よりも優れているシナリオ、およびその逆のシナリオについて説明します。 quastionのイメージ。

10 machine-learning self-study cross-validation

1

ランダムフォレストの結果が変動しやすいのはなぜですか？

2つのグループ間でサンプルを分類するランダムフォレストの機能をテストしようとしています。分類に使用される54のサンプルとさまざまな数の変数があります。 50kのツリーを使用している場合でも、out-of-bag（OOB）の見積もりが互いに5％も異なる場合があるのはなぜですか。これはブートストラップが役立つものですか？

10 machine-learning random-forest

3

LASSO（正則化）がどのように機能するかを本当に理解していないと統計学者がどういう意味ですか？

Lasso（正規化）に関する最近のいくつかの統計話に行ったことがありますが、ここで浮かび上がってくるポイントは、なぜLassoが機能するのか、なぜLassoがうまく機能するのかがよくわからないということです。この声明が何を指しているのかと思います。Lassoがパラメーターの縮小による過剰適合を防止することによって技術的に機能する理由は明らかですが、そのようなステートメントの背後に深い意味があるのではないかと思います。誰かアイデアはありますか？ありがとう！

10 machine-learning lasso regularization

1

行列関数の導関数のこの計算を正当化するものは何ですか？

Andrew Ngの機械学習コースでは、次の式を使用しています。 ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T そして彼は以下に示される簡単な証明をします： ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB 証拠はコメントなしで非常に密に見え、私はそれを理解するのに苦労しています。2番目から3番目の平等から具体的に何が起こりましたか？

10 machine-learning matrix derivative

2

グラフィカルモデルとボルツマンマシンは数学的に関連していますか？

物理学のクラスでボルツマンマシンを使って実際にプログラミングを行ったことがありますが、それらの理論的な特性についてはよく知りません。対照的に、私はグラフィカルモデルの理論については適度な量を知っています（ローリッツェンの本Graphical Modelsの最初の数章について）。質問：グラフィカルモデルとボルツマンマシンの間に意味のある関係はありますか？ボルツマンマシンは一種のグラフィカルモデルですか？明らかに、ボルツマンマシンは一種のニューラルネットワークです。ニューラルネットワークの中には、数学的にグラフィカルモデルに関連しているものとそうでないものがあると聞きました。私の質問に答えないCrossValidatedの関連質問：これは、以前に尋ねられた前の質問に似ています：階層モデル、ニューラルネットワーク、グラフィカルモデル、ベイジアンネットワーク間の関係は何ですか？より具体的です。さらに、その質問に対する受け入れられた回答は私の混乱を明確にしません-ニューラルネットワークの標準的なグラフィック表現のノードが確率変数を表さなくても、そのような表現が存在しないことを必ずしも意味しません。具体的には、マルコフ連鎖の典型的なグラフィカル表現のノードが確率変数ではなく可能な状態のセットをどのように表すかについて考えていますが、X i間の条件依存関係を示すグラフを作成することもできますバツ私XiX_iバツ私バツ私X_iこれは、すべてのマルコフ連鎖が実際にはマルコフ確率場であることを示しています。答えはまた、ニューラルネットワーク（おそらくボルツマンマシンを含む）は「弁別的」であると述べていますが、その主張が何を意味するかを詳しく説明することはしません。また、明らかなフォローアップの質問は「差別的ではないグラフィカルモデルですか？」対処した。同様に、受け入れられた回答リンクはケビンマーフィーのウェブサイト（実際にはベイジアンネットワークについて学ぶときに彼の博士論文の一部を読んでいます）にリンクしていますが、このウェブサイトはベイジアンネットワークのみを取り上げており、ニューラルネットワークについてはまったく触れていません。異なっています。この他の質問はおそらく私のものに最も似ています：ニューラルネットワークをグラフィカルモデルとして数学的にモデル化します。ただし、どの回答も受け入れられず、同様に参照のみが示され、説明は説明されません（この回答など）。いつかリファレンスを理解できるようになると思いますが、今は基本的な知識レベルにいるので、できるだけ単純化した回答をいただければ幸いです。また、上位の回答（http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml）にリンクされているトロントのコースでは、これについて説明していますが、詳細については詳しく説明していません。さらに、私の質問に答える可能性がある1つの講義のノートは公開されていません。 3月25日講演13b：Belief Nets 7:43。このスライドでは、ボルツマンマシンを念頭に置いてください。そこにも、隠れたユニットと目に見えるユニットがあり、すべて確率的です。BMとSBNには、違いよりも共通点があります。9:16。最近では、「グラフィカルモデル」はニューラルネットワークの特別なカテゴリと見なされることがありますが、ここで説明する歴史では、非常に異なるタイプのシステムと見なされていました。

10 machine-learning neural-networks mathematical-statistics graphical-model rbm

5

なぜfベータスコアはそのようにベータを定義するのですか？

これはFベータスコアです： Fβ= （1 + β2）⋅ P R E 、C 、I S I O N ⋅ R E C A L L（β2⋅ P R E 、C 、I S I O N）+ R E C A L LFβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallF_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} ウィキペディアの記事には、ます。FβFβF_\beta "measures …

10 machine-learning precision-recall model-evaluation

1

ニューラルネットワークは通常、トレーニング中に「キックイン」するのにしばらく時間がかかりますか？

バックプロパゲーションを使用して、分類用のディープニューラルネットワークをトレーニングしようとしています。具体的には、Tensor Flowライブラリを使用して、画像分類に畳み込みニューラルネットワークを使用しています。トレーニング中に私は奇妙な行動を経験しており、これが典型的であるのか、それとも私が何か間違ったことをしているのかと思っています。したがって、私の畳み込みニューラルネットワークには8つのレイヤーがあります（5つの畳み込み、3つが完全に接続されています）。すべての重みとバイアスは、小さな乱数で初期化されます。次に、ステップサイズを設定し、Tensor FlowのAdam Optimizerを使用して、ミニバッチでトレーニングを進めます。私が話している奇妙な振る舞いは、私のトレーニングデータの最初の約10ループでは、トレーニング損失は一般に減少しないということです。ウェイトは更新されていますが、トレーニングロスはほぼ同じ値のままで、ミニバッチ間で上昇または下降する場合があります。しばらくこのままで、損失は減らないという印象を常に持っています。その後、突然、トレーニングロスが劇的に減少します。たとえば、トレーニングデータの約10ループ内で、トレーニングの精度は約20％から約80％になります。それ以降、すべてがうまく収束します。トレーニングパイプラインを最初から実行するたびに同じことが起こります。以下は、実行例を示すグラフです。だから、私が疑問に思っているのは、これがディープニューラルネットワークのトレーニングによる通常の動作であり、「キックイン」に時間がかかるかどうかです。それとも、この遅延を引き起こしている何か間違っていることがあるのでしょうか？どうもありがとう！

10 machine-learning classification neural-networks conv-neural-network tensorflow

2

PCAの逆共分散行列と共分散行列

PCAでは、逆共分散行列の主成分を選択した場合、または大きな固有値に対応する共分散行列の固有ベクトルを削除した場合に、違いはありますか？これは、この投稿での議論に関連しています。

10 machine-learning pca computational-statistics

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」