統計とビッグデータ

2

重み付けされていない分散場合、同じデータから平均が推定されたときにバイアス補正されたサンプル分散が存在します：ヴァー（X）：= 1n∑私（x私- μ ）2ヴァール（バツ）：=1n∑私（バツ私−μ）2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2ヴァー（X）：= 1n − 1∑私（x私− E[ X] ）2ヴァール（バツ）：=1n−1∑私（バツ私−E[バツ]）2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 私は加重平均と分散を調べており、加重分散の適切なバイアス補正とは何なのか疑問に思っています。使用：平均（X）：= 1∑私ω私∑私ω私バツ私平均（バツ）：=1∑私ω私∑私ω私バツ私\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 私が使用している「単純な」未修正の分散は、次のとおりです。ヴァー（X）：= 1∑私ω私∑私ω私（x私− 平均（X））2ヴァール（バツ）：=1∑私ω私∑私ω私（バツ私−平均（バツ））2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 だから、バイアスを修正する正しい方法は A）ヴァー（X）：= 1∑私ω私− 1∑私ω私（x私− 平均（X））2ヴァール（バツ）：=1∑私ω私−1∑私ω私（バツ私−平均（バツ））2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはB）ヴァー（X）：= nn − 11∑私ω私∑私ω私（x私− 平均（X））2ヴァール（バツ）：=nn−11∑私ω私∑私ω私（バツ私−平均（バツ））2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはC） …

22 variance unbiased-estimator weighted-mean weighted-data bias-correction

3

教師付きクラスタリングまたは分類？

2番目の質問は、Web上のどこかで「教師ありクラスタリング」について話している議論で見つけたということです。私が知る限り、クラスタリングは教師なしです。「分類」に関する違いは何ですか？それについて話している多くのリンクがあります： http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf など...

22 clustering classification unsupervised-learning statistical-learning

3

不等分散の回帰モデリング

残差分散が説明変数に明らかに依存している線形モデル（lm）を近似したいと思います。私がこれを行う方法は、ガンマファミリでglmを使用して分散をモデル化し、その逆関数をlm関数の重みに入れることです（例：http : //nitro.biosci.arizona.edu/r/chapter31 .pdf）私は考えていた：これが唯一のテクニックですか？関連する他のアプローチは何ですか？このタイプのモデリングに関連するRパッケージ/機能は何ですか？（glm、lm以外）

22 r generalized-linear-model linear-model heteroscedasticity gamlss

4

自然対数の期待値

私が知っているE(aX+b)=aE(X)+bE(aX+b)=aE(X)+bE(aX+b) = aE(X)+bと、Bのように与えられ、定数を、それを解決するのは簡単です。また、この場合のような非線形関数の場合は適用できないことを知っており、それを解決するために近似を行う必要がありますテイラーの私の質問は、どのように解くのですか?? テイラーとも近似しますか？a,ba,ba,b E(X)E(X)E(X)E(1/X)≠1/E(X)E(1/X)≠1/E(X)E(1/X) \neq 1/E(X)E(ln(1+X))E(ln⁡(1+X))E(\ln(1+X))

22 mathematical-statistics

1

一貫性のない推定量は望ましいでしょうか？

一貫性は明らかに自然で重要なプロパティ推定器ですが、一貫性のある推定器よりも一貫性のない推定器を使用したほうがよい場合がありますか？より具体的には、すべての有限（適切な損失関数に関して）に対して妥当な一貫性のある推定器よりも優れた一貫性のない推定器の例はありますか？nnn

22 estimation consistency

4

Rに100個の変数がある線形モデル式を書く方法

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rに100個のパラメータを持つモデルで線形回帰を作成するRの簡単な方法はありますか？10個の値を持つベクトルYと10個の列と100個の行を持つデータフレームXがあるとしましょうY = X[[1]] + X[[2]] + ... + X[[100]]。R構文で似たようなものを書くにはどうすればよいですか？

22 r

3

大きな、小さな問題を扱うときのモデルの安定性

イントロ：古典的な「大きなp、小さなnの問題」のデータセットがあります。利用可能なサンプル数n = 150で、可能な予測子の数p = 400。結果は連続変数です。最も「重要な」記述子、つまり、結果を説明し、理論の構築を支援するのに最適な記述子を見つけたいと思います。このトピックに関する調査の後、大きなp、小さなnの場合にLASSOとElastic Netが一般的に使用されることがわかりました。私の予測子のいくつかは非常に相関しており、重要度評価でそれらのグループを保持したいので、Elastic Netを選択しました。重要度の尺度として回帰係数の絶対値を使用できると思います（間違っている場合は修正してください。データセットは標準化されています）。問題：サンプル数が少ないので、どのようにして安定したモデルを実現できますか？私の現在のアプローチは、MSEスコアを平均する10倍の交差検証を使用して、データセットの90％でグリッド検索で最適なチューニングパラメーター（ラムダとアルファ）を見つけることです。次に、データセットの90％全体で最適なチューニングパラメーターを使用してモデルをトレーニングします。データセットの10％のホールドアウトでRの2乗を使用してモデルを評価できます（これは15サンプルのみです）。この手順を繰り返し実行すると、Rの2乗評価に大きなばらつきが見つかりました。同様に、非ゼロの予測子の数はその係数と同様に異なります。予測変数の重要性のより安定した評価と、最終モデルのパフォーマンスのより安定した評価を取得するにはどうすればよいですか？手順を繰り返し実行して多くのモデルを作成してから、回帰係数を平均できますか？または、モデルの予測子の出現回数を重要度スコアとして使用する必要がありますか？現在、40から50個の非ゼロの予測子を取得しています。安定性を高めるために、予測子の数をより厳しくペナルティにすべきですか？

22 regression cross-validation model-selection feature-selection elastic-net

2

Rのパレート分布にデータセットを適合させるにはどうすればよいですか？

次のデータがあるとします。 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 これ（および他のいくつかのデータセット）をパレート分布に適合させる簡単な方法が必要です。理想的には、一致する理論値を出力し、理想的ではないパラメーターを出力します。

22 r pareto-distribution

4

信頼区間が広すぎて役に立たないと考えているクライアントに何と言いますか？

私がコンサルタントであり、信頼区間の有用性をクライアントに説明したいとします。クライアントは、私の間隔が広すぎて役に立たない、そして彼は半分の幅を使うことを好むだろうと私に言います。どうすれば対応できますか？

22 confidence-interval interpretation

5

有界確率変数の分散

ランダム変数の下限と上限が[0,1]であるとします。そのような変数の分散を計算する方法は？

22 variance standard-deviation measurement-error

1

複数の季節成分を含む時系列を分解する方法は？

2つの季節成分を含む時系列があり、その系列を次の時系列成分（トレンド、季節成分1、季節成分2、不規則成分）に分解したいと思います。私の知る限り、Rでシリーズを分解するためのSTL手順では、季節成分は1つしか許可されないため、シリーズを2回分解してみました。まず、次のコードを使用して、頻度を最初の季節成分に設定します。 ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 次に、dec_1次のように頻度を2番目の季節成分に設定することにより、分解された系列の不規則成分（）を分解しました。 ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") このアプローチには自信がありません。また、複数の季節性を持つシリーズを分解する他の方法があるかどうかを知りたいです。また、tbats()R 予測パッケージの関数を使用すると、複数の季節性を持つシリーズにモデルを適合させることができますが、それを使用してシリーズを分解する方法はわかりません。

22 r time-series forecasting decomposition multiple-seasonalities

1

Rでは、ヘッセ行列を使用したoptimからの出力が与えられた場合、ヘッセ行列を使用してパラメーターの信頼区間を計算する方法は？

ヘッセ行列を使用したoptimからの出力が与えられた場合、ヘッセ行列を使用してパラメータ信頼区間を計算する方法 fit<-optim(..., hessian=T) hessian<-fit$hessian 最尤分析のコンテキストに主に興味を持っていますが、この方法を超えて拡張できるかどうか知りたいです。

22 r maximum-likelihood

2

混合効果モデルをどのように比較または検証する必要がありますか？

（線形）混合効果モデルは通常どのように互いに比較されますか？尤度比検定を使用できることは知っていますが、一方のモデルが他方のモデルの「サブセット」でない場合、これは機能しませんか？モデルdfの推定は常に簡単ですか？固定効果の数+推定される分散成分の数ランダム効果の推定値を無視しますか？検証はどうですか？私の最初の考えは相互検証ですが、データの構造を考えるとランダムな折り畳みは機能しないかもしれません。「1つのサブジェクト/クラスターを除外する」方法論は適切ですか？1つの観察結果を除外するのはどうですか？ Mallows Cpは、モデルの予測誤差の推定値として解釈できます。AICを介したモデル選択は、予測エラーを最小化しようとします（したがって、エラーがガウス分布である場合、CpとAICは同じモデルを選択する必要があります）。これは、AICまたはCpを使用して、いくつかのネストされていないモデルのコレクションから予測エラーの観点から「最適な」線形混合効果モデルを選択できることを意味しますか？（同じデータに当てはまる場合）BICは、候補者の間で「真の」モデルを選択する可能性がまだ高いですか？また、AICまたはBICを介して混合効果モデルを比較する場合、実際のモデルdfではなく、計算で固定効果のみを「パラメーター」として数えるという印象を受けています。これらのトピックに関する良い文献はありますか？cAICまたはmAICを調査する価値はありますか？AIC以外の特定のアプリケーションがありますか？

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

1

統計的検出力の計算

私が理解しているように、電力分析を行うには、提案された研究の少なくとも3つの側面（4つのうち）を知る必要があります。テストの種類-ピアソンのrおよびANCOVA /回帰を使用する予定-GLM 有意水準（アルファ）-0.05を使用する予定予想される効果サイズ-中程度の効果サイズ（0.5）を使用する予定サンプルサイズ事前に消費電力を計算するために使用できる、優れたオンライン消費電力計算機をお勧めできますか。（SPSSは先験的な電力計算を実行できますか？） GPowerに出くわしましたが、よりシンプルなツールを探しています！

22 power-analysis

2

モデル選択のための最良のアプローチベイジアンまたは交差検証？

さまざまなモデルまたは含める機能の数を選択しようとすると、2つのアプローチが考えられます。データをトレーニングセットとテストセットに分割します。さらに良いことには、ブートストラップまたはk-fold交差検証を使用します。トレーニングセットで毎回トレーニングを行い、テストセットの誤差を計算します。テストエラーとパラメーターの数をプロットします。通常、次のようになります。パラメーターの値を積分することにより、モデルの尤度を計算します。すなわち、を計算し、これをパラメーターの数に対してプロットします。次に、次のようなものを取得します。∫θP（D | θ ）P(θ)dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta だから私の質問は：これらのアプローチは、この問題を解決するのに適していますか（モデルに含めるパラメーターの数を決定するか、いくつかのモデルから選択する）。それらは同等ですか？おそらくない。特定の仮定の下で、または実際に同じ最適モデルを提供しますか？ベイジアンモデルなどで事前知識を指定するという通常の哲学的な違い以外に、各アプローチの長所と短所は何ですか？どちらを選びましたか？更新： AICとBICの比較に関する関連する質問も見つけました。私の方法1はAICと漸近的に等価であり、方法2はBICと漸近的に関連しているようです。しかし、BICはLeave-One-Out CVと同等であることも読んでいます。これは、LOO CVがKフォールドCVに等しい場合、トレーニングエラーの最小値とベイジアン尤度の最大値が等しいことを意味します。おそらく非常に興味深い論文「Jun Shaoによる「線形モデル選択のための漸近理論」」はこれらの問題に関連しています。

22 bayesian model-selection cross-validation feature-selection