統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
と、の独立性の背後にある直観は何ですか?
ランダム変数と( 標準正規分布を持つ)が統計的に独立している理由を説明する議論を誰かが提案できることを期待 していました。その事実の証明はMGFテクニックから簡単に得られますが、それでも非常に直感に反していると思います。Y1=X2−X1Y1=X2−X1Y_1=X_2-X_1Y2=X1+X2Y2=X1+X2Y_2=X_1+X_2XiXiX_i したがって、もしあれば、ここでの直感に感謝します。 前もって感謝します。 編集:下付き文字は、順序統計ではなく、標準の通常分布からのIID観測を示します。

1
主成分分析を使用してデータを白くするには?
データを変換したいバツX\mathbf X分散が1で共分散がゼロになるようにます(つまり、データを白色化します)。さらに、平均はゼロでなければなりません。 私はZ標準化とPCA変換を行うことでそこに到達することを知っていますが、どの順序でそれらを行うべきですか? 合成されたホワイトニング変換の形式はなければなりません。X ↦Wx + bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} これらの変換を正確に行い、上記の形式の式を提供するPCAに似た方法はありますか?

3
なぜベイジアン統計が統計的プロセス制御でより一般的ではないのですか?
ベイジアン対頻繁な議論の私の理解は、その頻繁な統計です: 客観的である(または主張する) または少なくとも公平 異なる仮定を使用する異なる研究者は、依然として定量的に比較可能な結果を​​得ることができます 一方、ベイジアン統計 事前知識を使用できるため(他の理由の中でも)、「より良い」予測(つまり、予想損失の低減)を行うと主張する 必要な「アドホック」選択が少なくなり、(少なくとも原則として)現実世界で解釈される事前/モデル選択に置き換えられます。 それを考えると、ベイジアン統計はSPCで非常に人気があると予想していました。プロセスの品質を管理しようとする工場の所有者であれば、主に予想される損失を気にします。競合他社よりも多くの/より良い事前知識を持っているので、それを減らすことができれば、さらに良いです。 しかし、SPCについて私が読んだ事実上すべてがしっかりと頻繁に行われているようです(つまり、事前分布なし、すべてのパラメーターのポイント推定、サンプルサイズ、p値などのアドホックな選択) 何故ですか?SPCがペンと紙を使用して行われた1960年代に、頻度統計がより良い選択であった理由がわかります。しかし、それ以来、なぜ誰もが異なる方法を試しなかったのでしょうか?

4
隠れマルコフモデルのトレーニング、複数のトレーニングインスタンス
このチュートリアルに従って、個別のHMMを実装しました http://cs229.stanford.edu/section/cs229-hmm.pdf このチュートリアルと他のチュートリアルでは、観測シーケンスを指定したHMMのトレーニングについて常に説明しています。 複数のトレーニングシーケンスがある場合はどうなりますか?モデルを順番にトレーニングして、それらを順番に実行する必要がありますか? 別のオプションは、シーケンスを1つに連結してトレーニングすることですが、1つのシーケンスの終了から次のシーケンスの開始までの状態遷移がありますが、これは実在しません。

1
順序ロジスティック回帰のプロットと解釈
1(簡単ではない)から5(非常に簡単)の範囲の順序依存変数easinessがあります。独立因子の値の増加は、容易性評価の増加に関連しています。 私の独立変数のうちの2つ(condAおよびcondB)はカテゴリカルであり、それぞれ2つのレベルがあり、2(abilityA、abilityB)は連続しています。 私が使用している序それは私がであると信じるものを使用してR、パッケージを ロジット(p (Y⩽ グラム))= lnp (Y⩽ グラム)p (Y> g)= β0g− (β1バツ1+ ⋯ + βpバツp)(g= 1 、… 、k − 1 )ロジット(p(Y⩽g))=ln⁡p(Y⩽g)p(Y>g)=β0g−(β1バツ1+⋯+βpバツp)(g=1、…、k−1)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) (@caracalの回答はこちら) 私はこれを独自に学習してきましたが、まだ苦労しているので、可能な限りの助けをお願いします。通常のパッケージに付属するチュートリアルに加えて、次の情報も役立つことがわかりました。 順序ロジスティック回帰の解釈 順序ロジスティック回帰の負の係数 …

1
特定の分散を持つ正規分布の二乗
正規分布確率変数の二乗分布は何であるX2バツ2X^2とX∼N(0,σ2/4)バツ〜N(0、σ2/4)X\sim N(0,\sigma^2/4)? 私が知っているχ2(1)=Z2χ2(1)=Z2\chi^2(1)=Z^2乗する際に有効な引数である標準正規分布は、しかし、どのような非単位分散の場合はどうですか?

9
参照リクエスト:一般化線形モデル
Generalized Linear Modelsに関する中級レベルの入門書を探しています。理想的には、モデルの背後にある理論に加えて、アプリケーションやサンプルをRまたは他のプログラミング言語に含めたいと思います-SASも人気のある選択肢だと聞きます。私は自分でそれを勉強するつもりですので、それがそれ自身の演習への答えを提供するならば、それは役立つでしょう。 あなたは、私が微積分学と確率論の伝統的な一年のコースを取ったと仮定することができます。また、回帰分析の基本にも精通しています。

1
PCAで「プリンシパルコンポーネント」と正確に呼ばれるものは何ですか?
仮定デザイン行列とのデータの投影の分散最大化するベクトルである。uuuXXX ここで、uuuをデータの(最初の)主成分として参照する資料を見ました。これは最大の固有値を持つ固有ベクトルでもあります。 ただし、データの主成分はXuXuX u。 明らかに、uuuとXuXuXuは異なるものです。誰でもここで私を助けて、主成分のこれら2つの定義の違いを教えてもらえますか?

1
疎データ行列で動作するクラスタリングアルゴリズム[非公開]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。 次のクラスタリングアルゴリズムのリストをコンパイルしようとしています。 Rで実装 sparseMatrix関数によって作成されるような、スパースデータ行列((非)非類似度行列ではない)で操作します。 CVにはこの概念を説明する他のいくつかの質問がありますが、スパース行列で直接操作できるRパッケージにリンクするものはありません。 大規模で疎なデータセットのクラスタリング 高次元のスパースバイナリデータのクラスタリング 疎で高次元のクラスタリング実装を探しています スペース効率の高いクラスタリング これまでのところ、スパース行列をクラスター化できるRの関数を1つだけ見つけました。 skmeans:球面kmeans skmeansパッケージから。コサイン距離を使用したkmeans 。dgTMatrixオブジェクトを操作します。遺伝的k-meansアルゴリズム、pclust、CLUTO、gmeans、およびkmndirsへのインターフェースを提供します。 例: library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , …
18 r  clustering  sparse 

2
ガウス混合の最適化が直接計算的に難しいのはなぜですか?
混合ガウス分布の対数尤度を考慮します。 l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} その方程式を直接最大化することが計算上困難なのはなぜだろうか?私は、なぜそれが難しいことを明らかにする必要があるかについての明確で堅実な直観、またはおそらくその難しい理由についてのより厳密な説明を探していました。この問題はNP完全ですか、それとも解決方法がまだわかりませんか?これが、EM(期待値最大化)アルゴリズムを使用することに頼る理由ですか? 表記法: =トレーニングデータ。SnSnS_n =データポイント。x(t)x(t)x^{(t)} =ガウス、それらの平均、標準偏差、および各クラスター/クラス/ガウスからポイントを生成する確率を指定するパラメーターのセット。θθ\theta =クラスター/クラス/ガウスiからポイントを生成する確率。pipip_i

3
ロジスティック回帰の係数の標準誤差を計算する方法
Pythonのscikit-learnを使用して、ロジスティック回帰のトレーニングとテストを行っています。 scikit-learnは、独立変数の回帰係数を返しますが、係数の標準誤差は提供しません。各係数のWald統計を計算し、それらの係数を相互に比較するには、これらの標準誤差が必要です。 ロジスティック回帰の係数の標準誤差を計算する方法の1つの説明を見つけました(ここ)が、従うのはやや困難です。 これらの標準エラーを計算する方法の簡単な簡潔な説明を知っている場合、および/またはそれを私に提供できる場合は、本当に感謝しています!特定のコードを意味するわけではありませんが(役立つコードは自由に投稿してください)、むしろ手順のアルゴリズム的な説明です。

2
PCAの低分散成分、それらは本当に単なるノイズですか?それをテストする方法はありますか?
PCAのコンポーネントを保持するかどうかを決定しようとしています。固有値の大きさに基づいて、ここやここなどで説明され、比較される膨大な数の基準があります。 ただし、私のアプリケーションでは、small(est)固有値はlarge(st)固有値と比較して小さくなり、大きさに基づく基準はすべてsmall(est)固有値を拒否することを知っています。これは私が望むものではありません。私が興味を持っているのは、ある意味で、小さな固有値の実際の対応する要素を考慮する既知の方法がありますか?それは、すべての教科書で暗示されているように本当に「ちょうど」ノイズか、潜在的な「何か」がありますか興味が残った?それが本当にノイズである場合、固有値の大きさに関係なく、それを削除し、そうでなければそれを保持します。 見つけられないPCAのコンポーネントに対して、何らかの確立されたランダム性または分布テストがありますか?それとも、これがばかげたアイデアになる理由を誰かが知っていますか? 更新 2つのユースケースのコンポーネントのヒストグラム(緑)と通常の近似(青):かつては本当にノイズ、おそらくは「ジャスト」ノイズではない(そう、値は小さいが、おそらくランダムではない)。どちらの場合も最大の特異値は〜160であり、最小、つまりこの特異値は0.0xxです。どのカットオフ方法にも小さすぎます。 私が探しているのは、これを形式化する方法です...
18 pca 

1
MANOVAはLDAとどのように関連していますか?
いくつかの場所で、MANOVAはANOVAと線形判別分析(LDA)に似ているが、常に手を振るような方法で作成されたという主張を見ました。正確に何を意味するのか知りたいです。 MANOVA計算のすべての詳細を説明するさまざまな教科書を見つけましたが、統計学者ではない人がアクセスできる適切な一般的な議論(写真は言うまでもありません)を見つけるのは非常に難しいようです。


9
チャート、図、プロットタイプのギャラリー
データ表示技術の包括的なギャラリーとして何をお勧めしますか?データを表示するより良い方法を考えているときに参照するために使用できるソースですか? 私は以下のものを特定しましたが、あなたがあなたのものを追加できたら嬉しいです: オンラインギャラリー: http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 http://en.wikipedia.org/wiki/Category:Statistical_charts_and_diagrams(1 ページのグラフィックギャラリーは提供しません) http://docs.ggplot2.org/current/ http://www.itl.nist.gov/div898/handbook/graphgal.htm http://scikit-learn.org/stable/auto_examples/index.html http://www.stata.com/support/faqs/graphics/gph/stata-graphs/ http://shiny.rstudio.com/gallery/ https://bl.ocks.org/(インタラクティブおよびベクターグラフィックス) http://www.texample.net/tikz/examples/(コードを使用したTikZおよびPGPの視覚化) ブック(ページに散らばったプロット): エドワード・R・タフテ、定量的情報の視覚的表示 Nathan Yau、データポイント

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.