タグ付けされた質問 「intuition」

統計についての概念的または非数学的な理解を求める質問。

2
分布の平均についての瞬間の直感?
なぜp(x)、3番目と4番目のモーメントのような確率分布のより高いモーメントが、それぞれ歪度と尖度に対応するのかについて、誰かが直感を提供できますか? 特に、平均の3乗または4乗の偏差は、なぜ歪度と尖度の測定値に変換されるのですか?これを関数の3次または4次導関数に関連付ける方法はありますか? 尖度のこの定義を考えてみましょう: Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X) = E[(x - \mu_{X})^4] / \sigma^4 繰り返しますが、なぜを上げると「凸凹」が生じるのか、またはが歪むのはなぜかは明らかではありません。魔法のようで神秘的です。(X - μ )3(x−μ)4(x−μ)4(x-\mu)^4(x−μ)3(x−μ)3(x-\mu)^3 編集:クイックフォローアップ。尖度のような指標の中央値ではなく、平均についてモーメントを定義することの利点は何ですか?次のような推定量のプロパティは何ですか? MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X) = E[(x - \tilde{x})^4] / \sigma^4 ここで、は中央値です。これはおそらく、平均を捨てる分布の外れ値の影響をあまり受けず、おそらくピーク度のより公平な尺度になるでしょうか?x~x~\tilde{x}

1
クラスター検証の情報のバリエーション(VI)メトリックの背後にある直感は何ですか?
私のような非統計学者にとっては、VIMarina Meliaの関連する論文「クラスタリングの比較-情報に基づく距離」(Journal of Multivariate Analysis、2007)を読んだ後でも、メトリック(情報の変動)のアイデアを捉えることは非常に困難です。実際、私はそこにあるクラスタリングの用語の多くに精通していません。 以下はMWEです。使用されるさまざまなメトリックで出力が何を意味するか知りたいのですが。私はこれらの2つのクラスターをR内に同じIDの順序で持っています: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

3
直感と変動係数の使用
私は現在、Coursera.orgの運用管理入門コースに参加しています。コースのある時点で、教授は操作時間の変動に対処し始めました。 彼が使用する測定は、標準偏差と平均の間の比率である変動係数です。 cv=σμcv=σμc_v = \frac{\sigma}{\mu} なぜこの測定が使用されるのですか?たとえば標準偏差を使用する以外に、CVを使用する利点と欠点は何ですか?この測定の背後にある直感は何ですか?

2
音声分類のための畳み込み深い信念ネットワークを理解するにはどうすればよいですか?
「では、階層表現のスケーラブルな教師なし学習のためのたたみ込みの深い信念ネットワーク Leeらによる」。al。(PDF)たたみ込みDBNが提案されています。また、メソッドは画像分類のために評価されます。小さなコーナーやエッジなどの自然なローカル画像機能があるため、これは論理的に聞こえます。 で、「教師なし機能畳み込み深い信念ネットワークを使用してオーディオ分類のための学習・リーらによって」。al。この方法は、さまざまなタイプの分類のオーディオに適用されます。話者識別、性別識別、電話分類、およびいくつかの音楽ジャンル/アーティスト分類。 このネットワークのたたみ込み部分は、画像をエッジとして説明できるように、音声に対してどのように解釈できますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
長期短期記憶(LSTM)リカレントニューラルネットワークの背後にある直感は何ですか?
Recurrent Neural Network(RNN)の背後にある考え方は私には明らかです。私はそれを次のように理解しています:一連の観測()(つまり、多変量時系列)があります。各単一観測は次元の数値ベクトルです。RNNモデル内では、次の観測は以前の観測と以前の "非表示状態"であると。ここで、非表示状態も数値で表されますベクトル(観測状態と非表示状態の次元は異なる場合があります)。隠された状態自体も、以前の観測と隠された状態に依存すると想定されます。o⃗ 1,o⃗ 2,…,o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_n → h io⃗ io→i\vec o_iNNNo⃗ i+1o→i+1\vec o_{i+1}o⃗ io→i\vec o_{i}h⃗ ih→i\vec h_i o⃗ i,h⃗ i=F(o⃗ i−1,h⃗ i−1)o→i,h→i=F(o→i−1,h→i−1)\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1}) 最後に、RNNモデルでは、関数はニューラルネットワークであると想定されます。利用可能なデータ(一連の観測)を使用して、ニューラルネットワークをトレーニング(適合)します。トレーニングの目標は、前の観測を使用して次の観測をできるだけ正確に予測できるようにすることです。FFF 現在、LSTMネットワークはRNNネットワークの修正版です。私が理解している限り、LSTMの背後にある動機は、RNNに固有の短いメモリの問題を解決することです(従来のRNNは、時間的に離れすぎている関連イベントに問題があります)。 LSTMネットワークの仕組みを理解しています。ここでLSTMの最良の説明、私が発見したことは。基本的な考え方は次のとおりです。 非表示状態ベクトルに加えて、非表示状態ベクトル()と同じサイズ(次元)を持つ、いわゆる「セル状態」ベクトルを導入します。「細胞状態」ベクトルは長期記憶をモデル化するために導入されたと思います。従来のRNNの場合と同様に、LSTMネットワークは入力として観測された隠された状態を取得します。この入力を使用して、次の方法で新しい「セル状態」を計算します。c⃗ ic→i\vec c_i c⃗ i+1=ω⃗ 1(o⃗ i,h⃗ i)⋅c⃗ i+ω⃗ …

2
コルモゴロフ–スミルノフ検定:サンプルサイズが大きくなると、p値とks検定の統計量は減少します
サンプルサイズの増加に伴い、p値とks検定の統計が減少するのはなぜですか?例としてこのPythonコードを見てみましょう: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) 結果は次のとおりです。 Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247) Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662) Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896) Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855) Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19) 直観的に私は、nが大きくなるにつれて、2つの分布が異なることを「より確実」にテストすることを理解しています。しかし、サンプルサイズが非常に大きい場合、これなどの類似性テストのポイントは何であり、アンダーソンダーリングテストまたはt検定と言えます。このような場合、nが非常に大きい場合、分布は常に「大幅に」違う!?現在、p値のポイントは一体何なのかと思っています。これはサンプルサイズに大きく依存します... p> 0.05でそれを小さくしたい場合は、より多くのデータを取得します。そして、p <0.05でより高くしたい場合は、一部のデータを削除します。 また、2つの分布が同一である場合、ks-test統計は0で、p値は1になります。ただし、私の例では、nが増加するにつれて、ks-test統計は、分布が時間とともにますます類似する(減少する)ことを示唆しています。 、しかしp値に従って、それらは時間とともにより大きくなり、(また減少し)ます。


3
2つの変数の合計の分散の式の背後にある直観
以前の研究から、 Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) しかし、なぜかはわかりません。AとBが高度に変動する場合、効果は分散を「押し上げる」ことになることがわかります。2つの相関性の高い変数からコンポジットを作成する場合、Aの高い観測値とBの高い観測値を加算する傾向があり、Aの低い観測値とBの低い観測値を加算する傾向があります。これは、コンポジット変数に極端に高い値と低い値を作成し、コンポジットの分散を増やします。 しかし、なぜ共分散を正確に 2 倍することが機能するのでしょうか。

1
傾向スコアの重み付けにおける治療の重みの逆確率(IPTW)の直感的な説明?
傾向スコアを使用して重みを計算するメカニズムを理解しています: w i 、j = t r e a tp(xi)p(xi)p(x_i) そして、回帰分析で重みを適用し、重みは、治療および対照群集団における共変量の効果を結果変数と「制御」または分離する働きをします。wi,j=treatwi,j=control=1p(xi)=11−p(xi)wi,j=treat=1p(xi)wi,j=control=11−p(xi)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} しかし、腸レベルでは、重みがこれをどのように達成するのか、そしてなぜ方程式がそのままの形で構築されるのか理解できません。

2
2つのサンプルのカルバックライブラーダイバージェンス
2つのサンプルのカルバックライブラーダイバージェンスの数値推定を実装しようとしました。実装をデバッグするには、2つの正規分布およびからサンプルを引き出します。N(0,1)N(0,1)\mathcal N (0,1)N(1,2)N(1,2)\mathcal N (1,2) 簡単な見積もりの​​ために、2つのヒストグラムを生成し、数値的に積分を近似しようとしました。ヒストグラムの1つのビンがゼロであるヒストグラムのこれらの部分を処理することに行き詰まり、最終的にゼロで除算するか、ゼロの対数で終わらせました。この問題をどのように処理しますか? 関連する質問が頭に浮かびました。2つの異なる一様分布間のKLダイバージェンスを正確に計算する方法は?統合を両方のディストリビューションのサポートの結合に制限する必要がありますか?

1
なぜ(は打ち切られている)なのか
問題セットで私はこの「補題」を証明しましたが、その結果は私には直観的ではありません。は、打ち切りモデルの標準正規分布です。ZZZ 正式には、 、およびです。次に、 したがって、切り捨てられたドメインの期待値の式と切り捨てのポイントでの密度間には、何らかの関係があります。誰かがこの背後にある直感を説明できますか?Z∗∼Norm(0,σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2)Z=max(Z∗,c)Z=max(Z∗,c)Z = max(Z^*, c)(c)E[Z|Z>c]=∫∞cziϕ(zi)dzi=12π−−√∫∞cziexp(−12z2i)dzi=12π−−√exp(−12c2) (Integration by substitution)=ϕ(c)E[Z|Z>c]=∫c∞ziϕ(zi)dzi=12π∫c∞ziexp(−12zi2)dzi=12πexp(−12c2) (Integration by substitution)=ϕ(c)\begin{align} E[Z|Z>c] &= \int_c^\infty z_i \phi({z_i})\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}}\int_c^\infty z_i \exp\!\bigg(\frac{-1}{2}z_i^2\bigg)\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}} \exp\!\bigg(\frac{-1}{2}c^2\bigg) \quad\quad\quad\quad\text{ (Integration by substitution)}\\ &= \phi(c) \end{align}(c)(c)(c)

2
最小の共分散行列を見つけるための適切な指標
教科書では、2つの共分散行列を比較するために正定性(準正定性)を使用していることを読んでいます。A−BA−BA-Bがpdの場合、BBBはAAAよりも小さいという考えです。しかし、私はこの関係の直感を得るために苦労していますか? ここに同様のスレッドがあります: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 行列を比較するために明確性を使用する直感とは何ですか? 答えはいいですが、直感には対応していません。 ここに私が混乱する例があります: [1612129]−[1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} ここで、差の行列式は-25なので、関係はpdまたはpsdでもなく、最初の行列は最初の行列よりも大きくありませんか? 2つの3 * 3共分散行列を比較して、どちらが最小かを確認したいだけですか?それらを比較するためにユークリッドノルムのようなものを使用する方が私にとってより直感的に見えるでしょうか?ただし、これは、上記の最初のマトリックスが2番目のマトリックスよりも大きいことを意味します。さらに、共分散行列の比較に使用されるpd / psd基準のみが表示されます。 誰かがpd / psdがユークリッドノルムなどの別の尺度を使用するよりも優れている理由を説明できますか? 私はまた、数学フォーラムにこの質問を投稿しました(何が最善だったのかわかりません)。これがルールに違反しないことを願っています。 /math/628135/comparing-two-covariance-matrices

3
特定のnに対して、比率の標準誤差が0.5で最大になるのはなぜですか?
比率の標準誤差は、問題の比率が0.5の場合に、指定されたNに対して最大になる可能性があり、比率が0.5から離れるほど小さくなります。比率の標準誤差の方程式を見ると、なぜそうなのかわかりますが、これについてはこれ以上説明できません。 式の数学的特性を超えた説明はありますか?もしそうなら、なぜそれらが0または1に近づくにつれ、(与えられたNの)推定比率の周りの不確実性が少なくなるのですか?

3
中心極限定理とパレート分布
誰かがパレート分布と中心極限定理の間の関係について簡単な(素人)説明を提供できますか?私は次の声明を理解しようとしています: 「中心極限定理はすべての分布で機能するわけではありません。これは1つの卑劣な事実によるものです。サンプル平均は、基礎となる分布が存在する場合、その平均の周りにクラスター化されます。しかし、分布にどういう意味がないのですか?これはパレート分布という意味ではありません。通常の方法で計算しようとすると、無限に発散します。」

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.