統計とビッグデータ

3

ランダムデータのSVD結果における奇妙な相関。彼らは数学的な説明を持っていますか、それはLAPACKのバグですか？

ランダムデータのSVD結果に非常に奇妙な動作が見られます。これは、MatlabとRの両方で再現できます。LAPACKライブラリの数値の問題のようです。それは...ですか？平均がゼロで、共分散がゼロの次元ガウスからサンプルを描画します：。データ行列にアセンブルします。（オプションで中央に配置するかどうかは、以下に影響しません。）次に、特異値分解（SVD）を実行してを取得します。 2つの特定の要素、たとえばと取り上げて、異なる描画間でそれらの間の相関関係をみましょう。数字があれば、K = 2 X 〜N（0 、I）1000年× 2 X X X = U S V ⊤ U U 11 U 22 X N個のR EのPn=1000n=1000n=1000k=2k=2k=2X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I)1000×21000×21000 \times 2XX\mathbf XXX\mathbf XX=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\topUU\mathbf UU11U11U_{11}U22U22U_{22}XX\mathbf XNrepNrepN_\mathrm{rep}描画のは適度に大きいため、このような相関はすべてゼロに近いはずです（つまり、母集団の相関はゼロでなければならず、サンプルの相関は小さくなります）。ただし、、、、および間で、これらの要素間でのみ、いくつかの奇妙な強い相関関係（約）が観察されます。他のすべての要素のペアには、予想どおりゼロ付近の相関があります。ここではどのようにするための相関行列20の「上部」の要素Uが\ mathbf（最初のように見える10個の、最初の列の要素、最初の10秒の列の要素）。U 11 U 12 U 21 U 22±0.2±0.2\pm0.2U11U11U_{11}U12U12U_{12}U21U21U_{21}U22U22U_{22}U 10 10202020UU\mathbf U101010101010 各象限の左上隅にある奇妙に高い値に注意してください。 …

21 pca svd linear-algebra numerics

4

分布がマルチモーダルかどうかをテストするにはどうすればよいですか？

データのヒストグラムをプロットすると、2つのピークがあります。それは潜在的なマルチモーダル分布を意味しますか？dip.testR（library(diptest)）を実行しましたが、出力は次のとおりです。 D = 0.0275, p-value = 0.7913 私のデータにはマルチモーダル分布があると結論付けることができますか？データ 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …

21 r hypothesis-testing distributions self-study histogram

4

非正規分布の信頼区間を計算するにはどうすればよいですか？

いくつかの一般的な値に大きな偏りがある383個のサンプルがありますが、平均の95％CIをどのように計算しますか？私が計算したCIはかなり外れているように見えます。これは、ヒストグラムを作成するときにデータが曲線のように見えないためです。だから、ブートストラップのようなものを使用しなければならないと思いますが、これはあまりよくわかりません。

21 confidence-interval mean

2

単純な線形回帰では、残差の分散の式はどこから来ますか？

私が使用しているテキストによると、残差の分散の式は次のようになります。ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) 残差は観測値と適合値の差であるため、これは信じがたいことです。差の分散を計算する場合、少なくとも、結果の式にいくつかの「プラス」が期待されます。派生を理解する上で助けていただければ幸いです。ithithi^{th}ithithi^{th}ithithi^{th}

21 regression variance residuals

3

AICの「パラメーターの数」の意味

AICを計算するとき、 AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L kは「パラメーターの数」を意味します。しかし、パラメーターとして何が重要ですか？たとえば、モデルでは y=ax+by=ax+by = ax + b aとbは常にパラメーターとしてカウントされますか？インターセプトの値を気にしない場合、無視できますか、それともカウントされますか？仮に y=af(c,x)+by=af(c,x)+by = a f(c,x) + b どこ Cとxの関数である、私は今、3つのパラメータを数えるのですか？fff

21 aic

4

標準化と学生化の違いは何ですか？

学生化では不明であるため、標準化の分散では既知であるため、推定されますか？ありがとうございました。

21 standardization

2

多重線形回帰モデルを記述または視覚化する方法

いくつかの入力パラメーター、たとえば3を使用して、多重線形回帰モデルをデータに適合させようとしています。 F（x ）F（x ）= A x1+ B x2+ Cバツ3+ dまたは= （A B C ）T（x1 バツ2 バツ3）+ d（私）（ii）（私）F（バツ）=Aバツ1+Bバツ2+Cバツ3+dまたは（ii）F（バツ）=（A B C）T（バツ1 バツ2 バツ3）+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} このモデルを説明して視覚化するにはどうすればよいですか？次のオプションが考えられます。このモデルの精度を示すために、標準偏差と（係数、定数）で説明されているように回帰方程式に言及し、次に残差プロットに言及します。（i ）（私）(i) …

21 regression data-visualization multiple-regression communication

2

最尤推定の標準誤差とはどういう意味ですか？

私は数学の自己学習統計であり、特に言語に苦労しています。私が使用している本には、次の問題があります。ランダム変数はとして与えられ分布し。（もちろん、この問題のために1つのパラメータに応じて、任意の分布を取ることができる。）次に、5つの値のサンプル、、、、与えられます。XXXPareto(α,60)Pareto(α,60)\text{Pareto}(\alpha,60)α>0α>0\alpha>0141414212121666323232222 最初の部分は、「最尤の方法を使用して、推定検索αのαを [サンプル]に基づきます。」これは問題ありませんでした。答えはα ≈ 4.6931。α^α^\hat{\alpha}αα\alphaα^≈4.6931α^≈4.6931\hat{\alpha}\approx 4.6931 しかし、その後：「の標準誤差の推定値付けαを。」α^α^\hat{\alpha} これはどういう意味ですか？以来αがちょうど固定実数で、私はそれが標準誤差を持っている可能性がどのような方法では表示されません。標準偏差を決定するアムI パレート（α、60 ）？α^α^\hat{\alpha}Pareto(α^,60)Pareto(α^,60)\text{Pareto}(\hat{\alpha},60) 質問が明確でないと思われる場合は、この情報も役立ちます。

21 maximum-likelihood

2

時系列をクラスター化する方法は？

クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。

21 time-series clustering spss

2

k-meansクラスタリングが混合ガウスモデリングの形式である場合、データが正常でない場合に使用できますか？

GMMのEMアルゴリズムと、GMMとk-meansの関係についてBishopを読んでいます。この本では、k-meansはGMMのハードアサインバージョンです。私は、クラスター化しようとしているデータがガウスではない場合、k-meansを使用できない（または少なくとも使用に適していない）ことを意味しているのだろうか？たとえば、データがそれぞれ値0または1の8 * 8ピクセルで構成される手書き数字の画像である場合（そしてそれらが独立していると仮定して、ベルヌーイの混合物である必要がある場合）？私はこれについて少し混乱していますが、どんな考えでも感謝します。

21 clustering data-mining k-means gaussian-mixture

1

ブートストラップを使用して回帰の係数の信頼区間を推定する2つの方法

私は自分のデータに線形モデルを適用しています： yi=β0+β1xi+ϵi,ϵi∼N(0,σ2).yi=β0+β1xi+ϵi,ϵi∼N(0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). Iは、係数の信頼区間（CI）（推定したいβ0β0\beta_{0}、β1β1\beta_{1}、ブートストラップ法を使用します）。ブートストラップ方式を適用できる方法は2つあります。ペアの応答予測子のサンプル：ペアをランダムにリサンプリングし、各実行に線形回帰を適用します。後は、m個の実行、我々は、推定された係数の集合得る^ β J、J = 1 、。。。メートル。最後に、の分位数を計算^ β jは。yi−xiyi−xiy_{i}-x_{i}mmmβj^,j=1,...mβj^,j=1,...m{\hat{\beta_{j}}}, j=1,...mβj^βj^{\hat{\beta_{j}}} サンプルエラー：まず、我々は入手このモデルから、元の観測データに線形回帰を適用とエラーε I。その後、ランダムエラーリサンプリングεを* Iとを使用して新しいデータを計算^ β O及び yは* I = ^ β O X I + ε * I。もう一度線形回帰を適用します。後は、m個の実行、我々は推定coefficeintsのコレクションを取得^ βのJ、J = 1 、βo^βo^\hat{\beta_{o}}ϵiϵi\epsilon_{i}ϵ∗iϵi∗\epsilon^{*}_{i}βo^βo^\hat{\beta_{o}}y∗i=βo^xi+ϵ∗iyi∗=βo^xi+ϵi∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}mmm。最後に、の分位数を計算 ^ β jは。βj^,j=1,...,mβj^,j=1,...,m{\hat{\beta_{j}}}, j=1,...,mβj^βj^{\hat{\beta_{j}}} 私の質問は：これら2つの方法はどのように違いますか？これらの2つの方法は、どの仮定の下で同じ結果をもたらしますか？

21 regression bootstrap

1

カーネルになる可能性のある機能は何ですか？

機械学習とパターン認識のコンテキストには、Kernel Trickと呼ばれる概念があります。関数がカーネル関数であるかどうかを判断するように求められている問題に直面して、正確に何をすべきですか？最初に、多項式、RBF、ガウスなどの3つまたは4つのカーネル関数の形式であるかどうかを確認する必要がありますか？それから私は何をすることになっていますか？正定であることを示す必要がありますか？誰かがそのような問題の段階的な解決策を示すために例を解決できますか？例えば同じように、あるカーネル関数f(x)=extx′f(x)=extx′f(x)=e^{x^tx'}（我々はそれがガウス核であるか分からないと仮定）？

21 machine-learning kernel-trick

3

glm（R）で適合度を計算する方法

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 6年前に移行されました。 glm関数を実行すると、次の結果が得られます。次の値をどのように解釈できますか？ヌル逸脱残留偏差 AIC 彼らはフィットの良さに関係がありますか？これらの結果から、R平方またはその他の尺度などの適合度の尺度を計算できますか？ Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept -1.305e-01 1.391e-01 …

21 r regression generalized-linear-model

2

LDAハイパーパラメーターの自然な解釈

誰かがLDAハイパーパラメーターの自然な解釈を説明できますか？ALPHAおよびBETAは、それぞれ（文書ごと）トピックおよび（トピックごと）単語分布のディリクレ分布のパラメーターです。しかし、これらのハイパーパラメーターの大きな値と小さな値を選択することの意味を誰かが説明できますか？それは、文書内のトピックの疎さの観点から事前の信念を置き、単語の観点からトピックの相互排他性を置くことを意味しますか？この質問は潜在的なディリクレ配分についてですが、すぐ下のBGReeneによるコメントは線形判別分析に言及しており、紛らわしいことにLDAと省略されています。

21 interpretation prior topic-models hyperparameter

1

RでのGBMのn.minobsinnodeパラメーターの役割[終了]

この質問が将来の訪問者を助けることはまずありません。それは、小さな地理的エリア、特定の瞬間、またはインターネットの世界中の視聴者には一般に適用できない非常に狭い状況にのみ関連します。この質問の適用範囲を広げるには、ヘルプセンターをご覧ください。 7年前に閉鎖されました。 GBMパッケージのn.minobsinnodeパラメーターの意味を知りたいと思いました。私はマニュアルを読みましたが、それが何をするのか明確ではありません。結果を改善するために、その数を小さくするか、大きくする必要がありますか？

21 r gbm