統計とビッグデータ

2

独立した観測のサンプルからのパラメーターの最尤推定値に対して、どの分布が閉形式の解を持っていますか？

21 distributions mathematical-statistics maximum-likelihood

3

Rで一般化線形混合モデルを実行し、2つの予測子間の相互作用効果を含めました。相互作用は重要ではありませんでしたが、主な効果（2つの予測子）は両方とも重要でした。今、多くの教科書の例は、相互作用の重要な効果がある場合、主な効果は解釈できないことを教えてくれます。しかし、相互作用が重要でない場合はどうでしょうか？ 2つの予測子が応答に影響を及ぼすと結論付けることはできますか？または、インタラクションを省いた新しいモデルを実行する方が良いでしょうか？複数のテストを制御する必要があるため、そうしないことを好みます。

21 logistic mixed-model interaction interpretation regression-coefficients

4

機能主成分分析（FPCA）：それは何ですか？

機能的主成分分析（FPCA）は、私が偶然見つけたものであり、理解できなかったものです。それは何ですか？ Shang、2011による「機能的主成分分析の調査」を参照してください。 PCAは、「次元の呪い」（Bellman 1961）のために、機能データの分析において深刻な困難に直面します。「次元の呪い」は、高次元空間におけるデータの希薄性に由来します。PCAの幾何学的特性が有効なままであっても、数値的手法が安定した結果を提供する場合でも、サンプル共分散行列は母集団共分散行列の不十分な推定値である場合があります。この困難を克服するために、FPCAはPCAよりもサンプルの共分散構造を調べるより有益な方法を提供します[...] わかりません。この論文が説明している欠点は何ですか？PCAは、「次元の呪い」のような状況を処理する究極の方法であると想定されていませんか？

21 time-series pca dimensionality-reduction

3

ランダム変数が関数として定義されているのはなぜですか？

関数としてのランダム変数の概念を理解するのに問題があります。私はメカニズムを理解しています（私は思う）が、動機を理解していません... セイここで、三重確率である、 Borel-あるその間隔とに-代数正規ルベーグ測度です。LETから確率変数であるへように、、...、であるため、は1から6までの値に離散的な一様分布を持ちます。 Ω = [ 0 、1 ] B σ P X B { 1 、2 、3 、4 、5 、6 } X （[ 0 、1 / 6 ））= 1 X （[ 1 / 6 、2 / 6 ））= 2 X （[（Ω 、B 、P）(Ω,B,P)(\Omega, B, P) Ω = [ 0 …

21 probability random-variable measure-theory

2

サンプルサイズが小さいとタイプ1エラーが発生する可能性がありますか？

サンプルサイズが小さいと電力が不足し、タイプ2エラーが発生する可能性があることを学びました。しかし、小さなサンプルは一般に信頼性が低く、偶然あらゆる結果につながる可能性があると感じています。本当？

21 hypothesis-testing small-sample

2

なぜ弱いと考え分散に先立って？

バックグラウンド最も一般的に使用される分散の弱い事前分布の1つは、パラメーターの逆ガンマです（Gelman 2006）。α=0.001,β=0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 ただし、この分布の90％CIは約です。[3×1019,∞][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf このことから、は分散が非常に高くなる可能性が低く、分散が1未満になる非常に低い確率であると解釈します。P （σ < 1 | α = 0.001 、β = 0.001 ）= 0.006IG(0.001,0.001)IG(0.001,0.001)IG(0.001, 0.001)P（σ< 1 | α = 0.001 、β= 0.001 ）= 0.006P（σ<1|α=0.001、β=0.001）=0.006P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006 pigamma(1, 0.001, 0.001) [1] 0.006312353 質問私は何かを見逃していますか、これは実際に有益な事前ですか？明確にするために更新しますが、この「情報」を検討していた理由は、分散が非常に強く、これまでに測定されたほとんどすべての分散のスケールをはるかに超えると主張しているためです。フォローアップ分散推定値の多数のメタアナリシスでは、より合理的な前を提供するだろうか？参照 …

21 bayesian multilevel-analysis prior

5

データがランダムに欠落しているかどうかを判断する統計的アプローチ

バイナリ分類問題を攻撃するために使用する機能ベクトルの大きなセットがあります（Pythonでscikitを使用して）。代入について考える前に、データの残りの部分から、欠落しているデータが「ランダムに欠落している」か、ランダムに欠落していないかを判断することに興味があります。この質問にアプローチする賢明な方法は何ですか？より良い質問は、データが「ランダムに完全に欠落している」かどうかを尋ねることです。それを行う賢明な方法は何ですか？

21 missing-data randomness

3

トレーニング損失は時間とともに増加します[複製]

この質問にはすでに回答があります：コスト関数の変化はどのようにプラスになりますか？（1つの答え）ニューラルネットワークが学習しない場合はどうすればよいですか？（5つの答え）先月閉鎖されました。モデル（リカレントニューラルネットワーク）をトレーニングして、4種類のシーケンスを分類しています。トレーニングを実行すると、トレーニングバッチのサンプルの90％以上を正しく分類するまで、トレーニングの損失が減少します。しかし、数エポック後に、トレーニングの損失が増加し、精度が低下することに気付きました。トレーニングセットでは、パフォーマンスが時間の経過とともに悪化することなく改善されると予想されるため、これは私にとって奇妙に思えます。クロスエントロピー損失を使用しており、学習率は0.0002です。更新：学習率が高すぎることが判明しました。学習率が十分に低い場合、この動作は観察されません。しかし、私はまだこの奇妙なことを見つけます。これが起こる理由についての良い説明は大歓迎です

21 machine-learning neural-networks loss-functions rnn training-error

2

ニューラルネットワークでボトルネックアーキテクチャはどのように機能しますか？

ボトルネックアーキテクチャは、[2つの3x3 convレイヤー]が[1x1 conv、1つの3x3 conv、および1x1 convレイヤー]に置き換えられたResNet論文で見つかったタイプとして定義されます。 1x1のconvレイヤーは、次元削減（および復元）の形式として使用されることを理解しています。これについては、別の投稿で説明しています。ただし、この構造が元のレイアウトと同じくらい効果的である理由についてはわかりません。いくつかの良い説明が含まれる場合があります：どのストライド長が使用され、どのレイヤーで？各モジュールの入力および出力の寸法の例は何ですか？上記の図で56x56の機能マップはどのように表されますか？64-dはフィルターの数を指しますが、なぜこれが256-dフィルターと異なるのですか？各レイヤーで使用されるウェイトまたはフロップの数は？どんな議論も大歓迎です！

21 residuals deep-learning conv-neural-network

1

隠れマルコフモデルと粒子フィルター（およびカルマンフィルター）の違い

ここに私の古い質問があります隠れマルコフモデル（HMM）とパーティクルフィルター（PF）の違い（違いがある場合）を誰かが知っているかどうか、そして結果としてカルマンフィルター、またはどの状況でどのアルゴリズムを使用するかを尋ねたいと思います。私は学生で、プロジェクトをしなければなりませんが、最初にいくつかのことを理解する必要があります。そのため、参考文献によれば、両方とも状態空間モデルであり、隠された（または潜在的または観察されていない）状態を含みます。ウィキペディア（Hidden_Markov_model）によると、「HMMでは、隠れ変数の状態空間は離散的ですが、観測自体は離散的（通常はカテゴリ分布から生成）または連続的（通常はガウス分布から）のいずれかです。隠れマルコフモデルは、連続状態空間を可能にするために一般化することもできます。そのようなモデルの例は、隠れ変数に対するマルコフ過程が線形動的システムであり、関連する変数間に線形関係があり、すべての隠れ変数と観測変数がガウス分布に従うモデルです。前述の線形動的システムなどの単純な場合、正確な推論は扱いやすい（この場合は、カルマンフィルターを使用）。ただし、一般に、連続的な潜在変数を持つHMMでの正確な推論は実行不可能であり、近似方法を使用する必要があります。」しかし、私にとってこれは少しわかりにくいです...簡単な言葉で言えば、これは次のことを意味します（私が行ったより多くの研究にも基づいています）： HMMでは、状態空間は離散または連続のいずれかです。また、観測自体は離散または連続のいずれかです。また、HMMは線形およびガウスまたは非ガウスの動的システムです。 PFでは、状態空間は離散または連続のいずれかです。また、観測自体は離散または連続のいずれかです。しかし、PFは非線形（および非ガウス？）動的システムです（その違いは違いますか？）。カルマンフィルター（HMMと同じように見えます）は、線形およびガウスの動的システムがある場合に使用されます。また、どのアルゴリズムを選択するかを知るには、これらはすべて同じように見えるので...また、PFは線形データ（たとえば、センサーKinectからの生データ）を持つことができると言う論文（英語ではない）を見つけました動きを認識する）、動的システムは非線形である場合があります。これは起こりますか？これは正しいです？どうやって？ジェスチャ認識では、研究者はHMMまたはPFのいずれかを使用できますが、各アルゴリズムを選択する理由を説明していません。これらのアルゴリズムを区別し、違いを理解し、最適なアルゴリズムを選択する方法を誰かが知っていますか？私の質問が大きすぎる場合、または一部の部分が素朴な場合は申し訳ありませんが、説得力のある科学的な答えはどこにも見つかりませんでした。ご清聴ありがとうございました！ここに私の新しい質問があります（@conjugatepriorの助けによると）したがって、さらに読みながら、以前のコメントの一部を更新し、何が起こっているのかをもう少し理解したいと思います。簡単に言えば、傘は動的ベイジアンネットワークであり、その下にHMMおよび状態空間のモデル（サブクラス）が含まれます（http://mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf）。さらに、2つのモデルの最初の違いは、HMMでは隠れた状態変数が離散的であり、観測値は離散的または連続的であるということです。PFでは、隠れ状態変数は連続的であり（実数値の隠れ状態ベクトル）、観測値はガウス分布を持ちます。また、@ conjugatepriorによれば、各モデルには次の3つのタスクがあります：フィルタリング、平滑化、予測。フィルタリングでは、モデルHMMは離散隠れ状態変数にフォワードアルゴリズム法を使用し、状態空間は連続変数に使用し、線形動的システムはカルマンフィルターなどを使用します。ただし、HMMを一般化して、連続状態空間を許可することもできます。これらのHMMの拡張により、2つのモデルは概念的に同一であるように見えます（隠れマルコフモデルとマルコフ遷移モデルと状態空間モデルで述べられているように...？）。私はもう少し正確な用語を使用していると思いますが、それでもすべてがぼやけています。誰でもHMMと状態空間モデルの違いは何ですか？本当に自分のニーズに合った答えが見つからないからです。もう一度ありがとう！

21 machine-learning self-study hidden-markov-model kalman-filter particle-filter

4

データが線形分離可能かどうかを知る方法は？

データには多くの機能（100など）があり、インスタンスの数は100,000程度です。データはまばらです。ロジスティック回帰またはsvmを使用してデータを近似します。非線形の場合にカーネルトリックを使用できるように、フィーチャが線形か非線形かをどのように知ることができますか？

21 machine-learning logistic svm data-mining

2

アクティベーション機能としてsoftplusよりもReLUを使用する利点は何ですか？

整流線形ユニット（ReLU）は、softplusユニットが線形であり、計算が高速であるため、softplusユニットに取って代わりました。 softplusには、スパース性を誘発するという利点がまだありますか、それともReLUに制限されていますか？私が尋ねる理由は、ReLUのゼロ勾配の負の結果について疑問に思うからです。このプロパティは、再アクティブ化の可能性を与えることが有益な場合に、ゼロでユニットを「トラップ」しませんか？

21 machine-learning neural-networks

3

nls（）で「初期パラメーター推定での特異勾配行列」エラーが発生するのはなぜですか？

排出削減と車あたりのコストに関するいくつかの基本的なデータがあります。 q24 <- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") これは指数関数であることを知っているので、以下に適合するモデルを見つけることができると期待しています。 model <- nls(cost.per.car ~ a * exp(b * reductions) + c, data = q24, start = …

21 r self-study exponential starting-values

2

極値理論-ショー：ガンベルに垂直

の最大値 iid Standardnormalsは、極値理論に従って標準ガンベル分布に収束します。バツ1、… 、Xn。〜X1,…,Xn.∼X_1,\dots,X_n. \sim どのようにそれを示すことができますか？我々は持っています P（最大X私≤ X ）= P（X1≤ X 、... 、Xn≤ X ）= P（X1≤ X ）⋯ P（Xn≤ X）= F（x ）nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n 我々は、選択/検索する必要が定数のシーケンスように：F \左（A_N X + B_N \右）^ …

21 probability normal-distribution convergence extreme-value

2

複数の条件による条件付き確率の定義

具体的には、AとBの2つのイベントと、いくつかの分布パラメーターがあり、を調べたいとします。θθ \theta P（ A| B 、θ ）P（A|B、θ）P(A | B,\theta) したがって、条件付き確率の最も簡単な定義は、イベントAおよびBが与えられた場合、です。上記のように、条件付けするイベントが複数ある場合、または私はまったく間違った方法で見ていますか？私は時々確率に対処するときに自分自身を気にする傾向がありますが、その理由はよくわかりません。P（A | B ） = P（ A ∩ B）P（B ）P（A|B）=P（A∩B）P（B）P(A|B) = \frac{P(A \cap B)}{P(B)}P（A | B 、θ ）=？P（（A | θ ）∩ （B | θ ））P（B | θ ）P（A|B、θ）=？P（（A|θ）∩（B|θ））P（B|θ）P(A | B,\theta) \stackrel{?}{=} \frac{P((A | \theta)\cap(B | \theta))}{P(B|\theta)}

21 probability conditional-probability