統計とビッグデータ

3

明らかに、距離測度がユークリッド距離である階層的クラスタリングでは、データは最初に正規化または標準化されて、最大分散の共変量がクラスタリングを駆動しないようにする必要があります。どうしてこれなの？この事実は望ましくありませんか？

19 clustering normalization

3

いくつかの場所で、各サンプルの対数を取り、変換されたデータの信頼区間を計算し、逆演算を使用して信頼区間を元に戻すことにより、データセットを正規分布のものに変換できることを聞きました（たとえば、場合は、それぞれ下限と上限の10の累乗になり）。ログ10ログ10\log_{10} ただし、単に平均自体に対して機能しないという理由だけで、このメソッドには少し疑いがあります10平均（ログ10（X））≠ 平均（X）10平均⁡（ログ10⁡（バツ））≠平均⁡（バツ）10^{\operatorname{mean}(\log_{10}(X))} \ne \operatorname{mean}(X) これを行う正しい方法は何ですか？平均自体で機能しない場合、平均の信頼区間でどのように機能しますか？

19 confidence-interval mean lognormal

3

モーメント生成関数が確率分布を一意に決定することの証明

Wackerly et alのテキストは、この定理「とそれぞれランダム変数XとYのモーメント生成関数を示している。両方のモーメント生成関数が存在し、 tのすべての値に対して、XとYは同じ確率分布を持ちます。」テキストの範囲を超えているという証拠はありません。Scheaffer Youngにも証明のない同じ定理があります。Casellaのコピーはありませんが、Googleブック検索では定理を見つけることができなかったようです。m y（t ）m x（t ）= m y（t ）mバツ（t ）mバツ（t）m_x(t)my（t ）my（t）m_y(t)mバツ（t ）= my（t ）mバツ（t）=my（t）m_x(t) = m_y(t) Gutのテキストは証明の概要を持っているように見えますが、「よく知られている結果」を参照せず、証拠も提供されていない別の結果を知る必要もあります。誰が最初にこれを証明したか、そしてその証明がどこでもオンラインで利用可能かどうかを知っていますか？それ以外の場合、この証明の詳細をどのように記入しますか？私が聞かれなかった場合、これは宿題の質問ではありませんが、これはおそらく誰かの宿題であると想像できます。ワッカーリーのテキストに基づいてコースシーケンスを取りましたが、しばらくの間、この証明について疑問に思っていました。それで、私はそれがちょうど尋ねる時間であると思いました。

19 mathematical-statistics references moments proof mgf

3

事前に指定された相関行列を使用してデータを生成するにはどうすればよいですか？

平均=、分散=、相関係数=相関ランダムシーケンスを生成しようとしています。以下のコードでは、標準偏差として＆を使用し、平均として＆を使用しています。1 0.80001110.80.80.8s1s2m1m2 p = 0.8 u = randn(1, n) v = randn(1, n) x = s1 * u + m1 y = s2 * (p * u + sqrt(1 - p^2) * v) + m2 これによりcorrcoef()、xとの間の0.8が正確になりyます。私が欲しい場合、私は、一連の手段を生成することができますどのように私の質問はzそれがまたと相関しているy（同じ相関でr=0.8r=0.8r=0.8）ではなく、とx。知っておく必要がある特定の式はありますか？私が見つかりました。一つが、それを理解できませんでした。

19 correlation matlab random-generation correlation-matrix

3

統計における関数

私の微積分クラスでは、関数e−x2e−x2e^{-x^2}または「ベル曲線」に遭遇し、統計学で頻繁に適用されると言われました。好奇心から、私は尋ねたい：関数は統計において本当に重要なのか？もしそうなら、がそれを有用にするのは何ですか、そしてそのアプリケーションのいくつかは何ですか？e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2} インターネット上で関数に関する情報を見つけることはできませんでしたが、いくつかの調査を行った後、一般的なベル曲線と正規分布と呼ばれるものの間のリンクを見つけました。A Wikipediaのページは、私が強調して、統計アプリケーションにその状態を機能これらのタイプのリンク：「正規分布は統計上最も顕著な確率分布と考えられています。これにはいくつかの理由があります。1まず、正規分布は中心極限定理から生じます。元の配布の形式に関係なく、同じ配布からほぼ正常に配布されます。」したがって、何らかの調査などから大量のデータを収集する場合、ような関数に均等に分散できますe−x2e−x2e^{-x^2}か？この関数は対称的であるため、その対称性、つまり正規分布に対する有用性は、統計上で非常に有用なのはなぜですか？ただ推測しているだけです。一般的に、統計で役立つのは何ですか？正規分布が唯一の領域である場合、正規分布の他のガウス型関数の中でe − x 2を一意または特に有用にするものは何ですか？e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2}

19 normal-distribution

2

ベイジアンモデルでの交差検証の安定性

JAGSでベイズHLMをk-fold cross-validation（k = 5）を使用してフィッティングしています。パラメーター推定値がすべてのフォールドにわたって安定しているかどうかを知りたいです。これを行う最良の方法は何ですか？ββ\beta 1つのアイデアは、の事後の差を見つけて、その差の95％CIに0があるかどうかを確認することです。つまり、の95％間隔で0になります（その後、すべてのフォールドペアについて繰り返します）。ββ\betaβk = 1- βk = 2βk=1−βk=2\beta_{k=1}-\beta_{k=2} 別のアイデアは、各フォールドの事後要素を異なるMCMCチェーンとして扱い、これらの擬似チェーン全体でGelmanの（Potential Scale Reduction Factor）を計算することです。R^R^\hat{R} これらのいずれかが望ましいですか、代替手段はありますか？

19 bayesian cross-validation

5

連続変数とカテゴリー変数の間の「相関」をどのように調べるのですか？

このような2種類の変数間の関係を調べるための意味のある「相関」尺度とは何ですか？ Rでは、それを行う方法は？

19 r correlation categorical-data association-measure

2

Rの標準偏差に使用される式は何ですか？

sdRの標準偏差関数で使用される式は何ですか？

19 r standard-deviation

1

予測モデリング-混合モデリングを気にする必要がありますか？

予測モデリングの場合、ランダム効果や観測の非独立性（反復測定）などの統計概念に関心を持つ必要がありますか？例えば.... 5つのダイレクトメールキャンペーン（1年間で発生）のさまざまな属性と購入フラグ付きのデータがあります。理想的には、これらすべてのデータを組み合わせて使用し、キャンペーンの時点で顧客の属性を考慮した購入モデルを構築します。その理由は、購入のイベントがまれであり、できるだけ多くの情報を使用したいからです。特定の顧客が1〜5個のキャンペーンに参加する可能性があります。つまり、レコード間に独立性がないことを意味します。以下を使用する場合、これは重要ですか？ 1）機械学習アプローチ（例、ツリー、MLP、SVM） 2）統計的アプローチ（ロジスティック回帰）？ **ADD:** 予測モデリングに関する私の考えは、モデルが機能する場合、それを使用することです。そのため、仮定の重要性を本当に考えたことはありません。上記のケースについて考えると、私は不思議に思いました。などの機械学習アルゴリズムを使用しMLP and SVMます。これらは、上記の例のようなバイナリイベントのモデル化に使用されますが、時系列データも明確に相関しています。ただし、多くの場合、尤度であり、エラーがiidであると仮定して導出される損失関数を使用します。たとえば、Rの勾配ブーストされたツリーはgbm、二項（ページ10）から派生した逸脱損失関数を使用します。

19 machine-learning predictive-models repeated-measures assumptions

6

機械学習の分野に参入しようとしているプログラマ

私はソフトウェア開発者です（主に.NETとPythonで約5年の経験があります）。機械学習の分野で仕事を得るために私は何ができますか？大学院の学位は厳しい要件ですか？

19 machine-learning data-mining careers

1

ブートストラップ配布の標準エラーの使用

（私の主な質問は言語に依存しないため、必要に応じてRコードを無視します）単純な統計（例：平均）の変動性を調べたい場合、次のような理論を介してそれを行うことができます。 x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) または次のようなブートストラップで： library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... sd(x.bs$t) しかし、私が疑問に思っているのは、特定の状況でブートストラップディストリビューションの標準エラーを調べることは有用/有効ですか？私が扱っている状況は、次のような比較的ノイズの多い非線形関数です。 # Simulate dataset set.seed(12345) …

19 r bootstrap nonlinear-regression

8

Rを使用した混合型データのクラスタリング

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。データ変数が混在するデータのクラスタリングをR内で実行できるかどうか疑問に思います。つまり、数値変数とカテゴリ変数の両方を含むデータセットがあり、それらをクラスター化する最適な方法を見つけています。SPSSでは、2ステップクラスターを使用します。Rで同様の手法を見つけることができるかどうか疑問に思います。poLCAパッケージについて言われましたが、よくわかりません...

19 r clustering mixed-type-data

1

比較の数が増えるにつれて、ベンジャミニ-ホッホベルグの補正はより保守的になりますか？

Benjamini-Hochbergの多重テスト修正は、比較の総数に対してどれほど保守的ですか？たとえば、2つのグループの18,000個の機能のリストがあり、p値を取得するためにWilcoxonテストを実行した場合。Benjamini-Hochbergを使用してそのp値を調整しますが、ほとんど何も重要ではありません。ボンフェローニ補正は、比較の回数が増えるにつれてかなり保守的になる可能性があることを知っています。Benjamini-Hochbergにも同じ特性がありますか？

19 multiple-comparisons p-value

3

ARIMAモデルの解釈

この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 7年前に移行されました。 ARIMAモデルについて質問があります。のは、私は時系列があるとしましょうYtYtY_t私は予想してしたいことをARIMA （2 、2 ）有馬（2、2）\text{ARIMA}(2,2)モデルは、予測演習を実施するための良い方法のように思えます。遅れたは、今日のシリーズが以前のイベントの影響を受けていることを示しています。意味あり。しかし、エラーの解釈は何ですか？私の以前の残差（私の計算でどの程度外れていたか）は、今日の私のシリーズの価値に影響を与えていますか？回帰の積/残余であるため、この回帰では時間差残差はどのように計算されますか？Δ Yt= α1Δ Yt − 1+ α2Δ Yt − 2+ νt+ θ1νt − 1+ θ2νt − 2△Yt=α1△Yt−1+α2△Yt−2+νt+θ1νt−1+θ2νt−2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} YYY

19 regression time-series interpretation

1

Rでの複数のメディエーション分析

Rで複数のメディエーションモデルを実行する方法を誰かが知っているのではないかと思っています。メディエーションパッケージでは複数の単純なメディエーションモデルを使用できますが、複数のメディエーションモデルを同時に評価する1つのモデルを実行したいと思います。私はこれをSEMフレームワーク（パス分析）で行うことができると仮定していますが、複数のメディエーターのメディエーション分析に典型的な統計を計算するパッケージの新しい人（間接効果、メディエーションによるトータル効果の割合など）、ブートストラップを利用できます。私はこれが長いショットであることを知っていますが、ゼロから開発する時間を投資する前に尋ねるべきだと思いました。更新日：（11/11/2013）数年前にこの質問をして以来、私は素晴らしいRパッケージlavaanを使用して複数の調停を行うことを学びました。コードの例を次に示します。 model <- ' # outcome model outcomeVar ~ c*xVar + b1*medVar1 + b2*medVar2 # mediator models medVar1 ~ a1*xVar medVar2 ~ a2*xVar # indirect effects (IDE) medVar1IDE := a1*b1 medVar2IDE := a2*b2 sumIDE := (a1*b1) + (a2*b2) # total effect total := c + (a1*b1) …

19 r regression mediation