統計とビッグデータ

1

声明サンプル分散のサンプリング分布は、自由度が等しいカイ二乗分布です。ここで、はサンプルサイズです（対象のランダム変数が正規分布している場合）。nn−1n−1n-1nnn ソース私の直感 1）カイ2乗検定は2乗和のように見えるため、2）カイ2乗分布は2乗正規分布の和にすぎないため、直感的に理解できます。それでも、私はそれをよく理解していません。質問ステートメントは本当ですか？どうして？

22 distributions normal-distribution sampling chi-squared sample-size

2

平均絶対スケール誤差（MASE）の解釈

平均絶対誤差（MASE）は、Koehler＆Hyndman（2006）によって提案された予測精度の尺度です。 MA SE= MA EMA Ei n − s a m p l e 、nは私のV EMASE=MAEMAE私n−sample、na私veMASE=\frac{MAE}{MAE_{in-sample, \, naive}} ここで、は実際の予測によって生成される平均絶対誤差です。一方、は、サンプル内データで計算された単純な予測（統合された時系列の変化なし予測など）によって生成された平均絶対誤差です。M A E i n − s a m p l e 、MA EMAEMAE I（1）MA Ei n − s a m p l e 、nは私のV EMAE私n−sample、na私veMAE_{in-sample, \, naive}私（1 ）私（1）I(1) （正確な定義と式については、Koehler＆Hyndman（2006）の論文をご覧ください。） MA …

22 time-series forecasting accuracy mase

5

時系列予測のためにデータセットを分割する方法は？

パン屋からの過去の販売データがあります（毎日、3年以上）。次に、将来の売上を予測するためのモデルを構築します（平日、天気変数などの機能を使用）。モデルの適合と評価のためにデータセットを分割するにはどうすればよいですか？時系列の列車/検証/テストの分割である必要がありますか？その後、トレインと検証セットを使用してハイパーパラメーターチューニングを行いますか？（ネストされた）相互検証は、時系列問題にとって悪い戦略ですか？編集 @ ene100によって提案されたURLを辿った後に出会ったいくつかのリンクを以下に示します。理論および実際の「ローリング予測の起源」を説明するロブ・ハインドマン（Rコードを使用）ローリングフォーキャスト予測のその他の用語は、「ウォークフォワード最適化」（ここまたはここ）、「ローリングホライズン」または「ムービングオリジン」です。「これらの技術の需要と半数性は不明確である」ため、これらの技術は近い将来scikit-learnに統合されないようです（ここで説明します）。そして、これは時系列相互検証の別の提案です。

22 cross-validation partitioning

3

部分依存プロットのy軸の解釈

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行されました。部分依存プロットに関する他のトピックを読みましたが、それらのほとんどは、それらを正確に解釈する方法ではなく、異なるパッケージで実際にプロットする方法に関するものです。私はかなりの量の部分依存プロットを読んで作成しています。私は、彼らが私のモデルからの他のすべての変数（χc）の平均の影響で関数ƒS（χS）に対する変数χsの限界効果を測定することを知っています。yの値が大きいほど、クラスの正確な予測に大きな影響を与えます。しかし、私はこの定性的な解釈に満足していません。私のモデル（ランダムフォレスト）は、2つの控えめなクラスを予測しています。「はい」と「いいえ」。TRIは、これに適した変数であることが証明されている変数です。私が考え始めたのは、Y値が正しい分類の確率を示しているということです。例：y（0.2）は、TRI値が30を超えていると、True Positive分類を正しく識別する可能性が20％であることを示しています。逆に y（-0.2）は、TRI値が<〜15の場合、True Negative分類を正しく識別する確率が20％であることを示しています。文献で行われている一般的な解釈は、「TRI 30より大きい値がモデルの分類にプラスの影響を与え始める」というように聞こえますが、それだけです。潜在的にあなたのデータについて多くを語ることができるプロットにとって、それはとても曖昧で無意味に聞こえます。また、すべてのプロットは、y軸の範囲内で-1から1の範囲で制限されます。-10〜10などの他のプロットを見ました。これは、予測しようとしているクラスの数の関数ですか？誰もこの問題に話すことができるかどうか疑問に思っていました。これらのプロットまたは私を助けてくれるいくつかの文献をどのように解釈すべきかを教えてください。多分私はこれを読みすぎていますか？統計学習の要素であるデータマイニング、推論、および予測を非常によく読んでおり、素晴らしい出発点でしたが、それだけです。

22 r classification data-visualization random-forest interpretation

2

データに多少のばらつきがあるにもかかわらず、混合モデルでランダム効果の分散がゼロになるのはなぜですか？

次の構文を使用して、混合効果ロジスティック回帰を実行しました。 # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 件名と項目はランダムな効果です。対象の項の係数と標準偏差が両方ともゼロであるという奇妙な結果が得られています。 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

22 r mixed-model stata glmm lme4-nlme

4

フィッシャーのLSDは彼らが言うほど悪いですか？

2つのグループで実験（小さなサンプルサイズ（通常、処理グループごとのサンプルサイズは約7〜8））を実行するとき、t検定を使用して差をテストします。ただし、ANOVA（明らかに3つ以上のグループ）を実行するときは、ボンフェローニ（LSD /ペアワイズ比較の数）またはテューキーの線に沿って何かを使用します。フィッシャーの最小有意差（LSD）を使用します。さて、LSDはペアワイズt検定に似ています（そうですか？）ので、それが考慮されていない唯一のことは、多重比較を行っていることです。ANOVA自体が重要な場合、たとえば6つのグループを扱うとき、それはどれほど重要ですか？または言い換えれば、フィッシャーのLSDを使用する科学的/統計的な理由はありますか？

22 anova multiple-comparisons post-hoc bonferroni fishers-lsd

3

なぜ最大尤度であり、予想尤度ではないのですか？

なぜパラメーターの最尤推定値を取得するのがそれほど一般的であるのに、予想尤度パラメーター推定値についてはほとんど聞いていません（つまり、尤度関数のモードではなく期待値に基づいています）。これは主に歴史的な理由によるものですか、それともより実質的な技術的または理論的な理由によるものですか？最尤推定値ではなく予想尤度推定値を使用することには、大きな利点や欠点がありますか？予想尤度推定が日常的に使用される領域はありますか？

22 probability mathematical-statistics maximum-likelihood optimization expected-value

5

大規模なデータセットの探索的分析をチェックする方法

大きなデータセット（多くのサンプル、多くの変数）で探索的分析を開始すると、多くの場合、何百もの派生変数と多数の異なるプロットがあり、何が起こっているのかを追跡する実際の方法がありません。コードは、最初から方向性がないため、スパゲッティのようになります... 探索的分析をきちんと整理するために推奨される方法はありますか？特に、探索の複数のブランチ（行き止まりのブランチを含む）を、どのように異なるバージョンのプロットで処理しますか？参考までに、私は地球科学データ（時間とともに多くの変数、時には空間にわたっても）に取り組んでいます。私は通常、PythonまたはRで作業し、すべてをgitに保存し、IPython Notebookも試しています。ただし、他のタイプの（大規模？）データを使用して、すべての分野の人々にとって回答がある程度一般的で有用であればよいでしょう。

22 eda project-management

3

不適切な事前はどのようにして適切な事後分布に導くことができますか？

適切な事前配布の場合、 P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta)。このステップのための通常の正当化は、周辺分布することである、、に対して一定であると事後分布を導出する際に、したがって無視することができます。XXXP(X)P(X)P(X)θθ\theta しかし、不適切な事前分布の場合、事後分布が実際に存在することをどのように知っていますか？この一見円形の議論には何かが欠けているようです。つまり、事後が存在すると仮定した場合、事後を導出する方法のメカニズムは理解しますが、事後が存在する理由についての理論的正当性が欠落しているようです。 PS私はまた、不適切な事前が不適切な事後につながる場合があることを認識しています。

22 distributions bayesian prior posterior

2

バイナリ行列のクラスタリング

次元250k x 100 のバイナリフィーチャの半小さなマトリックスがあります。各行はユーザーであり、列は、「likes_cats」などのユーザー動作のバイナリ「タグ」です。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ユーザーを5〜10個のクラスターに適合させ、負荷を分析して、ユーザーの行動のグループを解釈できるかどうかを確認します。バイナリデータにクラスターをフィッティングするためのアプローチはかなりあるように思われます-このデータに最適な戦略は何だと思いますか？ PCA Jaccard Similarityマトリックスを作成し、階層クラスターを適合させてから、上位の「ノード」を使用します。 Kメディアン K-medoid プロキシマス？アグネスこれまでのところ、階層的クラスタリングを使用することである程度の成功を収めてきましたが、それが最善の方法であるかどうかは確かではありません。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

22 r clustering binary-data

3

シンプソンのパラドックスを理解する：性別と身長で収入が減少するアンドリュー・ゲルマンの例

Andrew Gelmanは最近のブログ投稿の1つで次のように述べています。私はシンプソンのパラドックスに反事実または潜在的な結果が必要だとは思わない。シンプソンのパラドックスを、操作できない変数で設定したり、操作に直接興味がない変数で設定したりできるためです。シンプソンのパラドックスは、より多くの予測変数を追加すると回帰係数が変化するというより一般的な問題の一部であり、符号の反転は実際には必要ありません。以下は、両方のポイントを説明する私の指導で使用する例です。性別と身長から収入を予測する回帰を実行できます。性別の係数は10,000 ドル（つまり、同じ高さの男性と女性を比較すると、平均して男性は10,000 ドル多くなります）、高さの係数は500 ドル（つまり、2人の男性または2人の女性を比較）身長が異なる場合、平均して背の高い人は身長1インチあたり500 ドル多くなります）。これらのcoefをどのように解釈できますか？私は確かにそれは高さに退行に何らかの形で「間違っている」と思われる、（それは高さの異なる同性の2人を比較すると想像するのは簡単です）高のCOEFが解釈しやすいと感じずに生の限り、セックスのための制御します背の低い人と背の高い人の違いは、男性と女性の違いであることによって「説明」できます。しかし、上記のモデルの性別を解釈するのは非常に難しいようです。たとえば、両方の身長が66インチの男性と女性を比較するのはなぜでしょうか。これは、背の低い男性と背の高い女性の比較になります。この推論はすべて漠然と因果関係にあるように見えますが、潜在的な結果を使用してそれを考えることは理にかなっていないと思います。私はそれについて熟考し（そして投稿にコメントしさえしました）、ここでより明確に理解されるように懇願する何かがあると思います。性別の解釈に関する部分までは大丈夫です。しかし、私は背の低い男性と背の高い女性を比較することの背後にある問題が何であるかわかりません。私のポイントは次のとおりです。実際、それはさらに意味があります（男性は平均して背が高いと仮定すると）。収入の違いは高さの違いによって何らかの部分で説明されるというまったく同じ理由で、「背の低い男性」と「背の低い女性」を比較することはできません。同じことは背の高い男性と背の高い女性にも当てはまり、さらに背の低い女性と背の高い男性にも言えます（いわば、それはさらに問題外です）。したがって、基本的に身長の影響は、背の低い男性と背の高い女性を比較する場合にのみ排除されます（これは、性別の係数の解釈に役立ちます）。人気のマッチングモデルの背後にある同様の基礎概念に鐘を鳴らしていませんか？シンプソンのパラドックスの背後にある考え方は、人口効果がサブグループごとの効果とは異なる可能性があるということです。これはある意味で彼のポイント2と、高さを単独で制御すべきではないことを認めているという事実に関連しています（変数バイアスの省略）。しかし、私はこれを性別の係数に関する論争と関連付けることはできませんでした。それをもっとはっきりと表現できるかもしれませんか？または私の理解についてコメントしますか？

22 regression interaction simpsons-paradox

2

Elastic Net Logistic Regressionでの最適なアルファの選択

glmnetR のパッケージを使用して、0から1のグリッドでラムダ値を選択することにより、ヘルスケアデータセットに対してElastic-Netロジスティック回帰を実行しています。短縮コードは次のとおりです。αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} これは、からの増分でのアルファの各値の平均交差検証誤差を出力します。1.0 0.10.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 私が文献で読んだものに基づいて、最適な選択は、cvエラーが最小化される場所です。しかし、アルファの範囲にわたってエラーには多くの変動があります。私はいくつかの局所的な最小値を見ていますが、グローバルな最小誤差はfor です。αα\alpha0.1942612alpha=0.8 一緒に行くのは安全alpha=0.8ですか？又は、変形所与、Iは、再実行する必要がありcv.glmnet、よりクロスバリデーションひだ（例えば、との代わりに）、または、おそらくより多くのの間のインクリメント及びCVエラーパスの鮮明な画像を取得しますか？10 α202020101010αα\alphaalpha=0.01.0

22 machine-learning cross-validation glmnet elastic-net

3

Rのwilcox.test（）によるW統計の出力は、U統計と同じですか？

私は最近、Mann-Whitney Uテストについて読んでいます。Rでこのテストを実行するには、実際にWilcoxonテストを実行する必要があることがわかります！私の質問：wilcox.testRのW統計はU統計と同じですか？

22 r wilcoxon-mann-whitney

2

回帰におけるWaldテスト（OLSおよびGLM）：t分布とz分布

回帰係数のWald検定は、漸近的に保持される次のプロパティに基づいていることを理解しています（たとえばWasserman（2006）：All Statistics、pages 153、214-215）：ここで推定回帰係数を示し、は回帰係数の標準誤差を示し、は係数の値をテストするために関心のある値（は通常0です） 0とは大きく異なります）。サイズようワルドテストがある：リジェクト場合β^SE（β）β0β0αH0| W| >Zα/2（β^- β0）seˆ（β^）〜 N（0 、1 ）(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}seˆ（β^）se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}|W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}ここで、 W= β^seˆ（β^）。W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. ただしlm、Rで線形回帰を実行する場合、回帰係数が0（with ）と大きく異なるかどうかをテストするために、値の代わりに値が使用されます。さらに、in R の出力は、テスト統計として値と値を提供する場合があります。明らかに、分散パラメータが既知であると想定される場合は値が使用され、分散パラメータが推定される場合は値が使用されます（このリンクを参照）。z z t z ttttzzzsummary.lmglmzzztttzzzttt 係数とその標準誤差の比率が標準正規分布として分布していると想定されているのに、なぜWald検定に分布が使用されることがあるのか、誰か説明できますか？ttt 質問に答えた後に編集するこの投稿は、質問に役立つ情報も提供します。

22 r regression hypothesis-testing generalized-linear-model

8

特徴点ごとのデータではなく、距離行列のみを使用してK平均（またはその近縁）クラスタリングを実行します。

所有しているオブジェクトに対してK-meansクラスタリングを実行したいのですが、オブジェクトは空間内のポイント、つまりobjects x featuresデータセットによって記述されていません。ただし、2つのオブジェクト間の距離は計算できます（類似度関数に基づいています）。そのため、距離行列を破棄しobjects x objectsます。私は以前にK-meansを実装しましたが、それはポイントデータセットの入力でした。距離行列の入力では、ポイント表現なしでクラスタを「中心」に更新する方法が明確ではありません。これは通常どのように行われますか？そのために、それに近いK-meansまたはメソッドのバージョンはありますか？

22 machine-learning clustering data-mining k-means distance