統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
ブートストラップされたリサンプルから取得した信頼区間の意味は何ですか?
私はこのサイトでブートストラップと信頼区間に関する多くの質問を見てきましたが、私はまだ混乱しています。混乱の原因の1つは、多くの答えを理解できるほど統計知識が十分に進歩していないことでしょう。私は入門的な統計コースのほぼ半分で、数学のレベルは中世代数II程度であるため、そのレベルを超えると混乱を招きます。このサイトの知識のある人が私のレベルでこの問題を説明できれば、非常に役立ちます。 クラスでは、ブートストラップメソッドを使用してリサンプルを取得し、それらを使用して、測定する統計の信頼区間を構築する方法を学習していました。したがって、たとえば、大規模な母集団からサンプルを取得し、40%が候補者Aに投票すると答えたとします。このサンプルは元の母集団をかなり正確に反映していると仮定します。人口について何かを発見するために。したがって、リサンプルを取得し、(95%の信頼レベルを使用して)結果の信頼区間が35%から45%の範囲であることを見つけます。 私の質問は、この信頼区間は実際にはどういう意味ですか? (Frequentist)Confidence Intervalsと(Bayesian)Credible Intervalsには違いがあることを読み続けます。正しく理解すれば、信頼できる間隔は、私たちの状況では真のパラメーターが指定された間隔(35%-45%)内にある95%の可能性があると言い、信頼区間はこれに 95%あると言います状況のタイプ(ただし、必ずしも特定の状況である必要はありません)使用しているメソッドは、真のパラメーターが指定された間隔内にあることを正確に報告します。 この定義が正しいと仮定すると、私の質問は次のとおりです。ブートストラップメソッドを使用して構築された信頼区間を使用する場合に話している「真のパラメーター」とは何ですか。(a)元の母集団の真のパラメーター、または(b)サンプルの真のパラメーターを参照していますか?(a)の場合、95%の確率で、ブートストラップメソッドは元の母集団に関する真のステートメントを正確に報告します。しかし、どうしてそれを知ることができるのでしょうか?ブートストラップ方法全体が仮定に基づいていないか元のサンプルは、それが取られた母集団の正確な反映であると?(b)の場合、信頼区間の意味がまったくわかりません。サンプルの真のパラメーターは既にわかっていませんか?それは簡単な測定です! 私はこれを先生と話しましたが、彼女はとても役に立ちました。しかし、私はまだ混乱しています。

3
多項式回帰が多重線形回帰の特殊なケースと見なされるのはなぜですか?
多項式回帰が非線形関係をモデル化する場合、多重線形回帰の特殊なケースとはどのように考えられますか? ウィキペディアは、「多項式回帰は非線形モデルをデータに適合させますが、統計的推定問題として線形ですが、推定される未知のパラメーターでは回帰関数は線形です。データから。」E(y|x)E(y|x)\mathbb{E}(y | x) パラメーターが次数 2の項の係数である場合、未知のパラメーターで多項式回帰はどのように線形になりますか?≥≥\ge

2
条件付きおよび無条件の変位値回帰の違いは何ですか?
τt hτth\tau^{th} ρτ=UI⋅(τ-1(UI&lt;0))、UiがβˆQ R= 分b∑i = 1nρτ(y私− X′私bτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ= あなた私⋅ (τ− 1 (u私&lt; 0 )))ρτ=ui⋅(τ−1(ui&lt;0))\rho_\tau = u_i\cdot (\tau - 1(u_i<0))あなたは私uiu_i Firpo等による論文で。(2009)、著者は、条件付き分位回帰は興味深い効果をもたらさないと述べています。彼らは、条件付きの結果を母集団に一般化することはできないと言います(OLSでは、反復期待の法則によって条件付きから無条件にいつでも移行できますが、これは変位値には使用できません)。これは、τt hτth\tau^{th}無条件変位値y私yiy_iがτt hτth\tau^{th}条件変位値y_i | X_iと同じではない可能性があるためy私| バツ私yi|Xiy_i |X_iです。 正しく理解できれば、問題の一部は、共変量を含めるとエラーが観測成分と非観測成分に分割されるため、X_iに含まれる共変量がバツ私XiX_iランキング変数u_iに影響するあなたは私uiu_iことです。これが問題を引き起こす理由を私はまったく理解できません。 私の質問は次のとおりです。 条件付きおよび無条件の分位効果が互いに異なるのはなぜですか? 条件付き分位点回帰の係数をどのように解釈できますか? 条件付き分位点回帰は偏っていますか? 参照: Koenker、R.、&Bassett、G.(1978) "Regression Quantiles"、Econometrica、Vol。46(1)、33-50ページ。 Firpo、S. et al。(2009)「無条件分位点回帰」、エコノメトリック、Vol。77(3)、953〜973ページ。

3
単純なベイジアン分類器のパフォーマンスが優れているのはなぜですか?
単純ベイズ分類器は、分類問題の一般的な選択肢です。これには、次のような多くの理由があります。 「Zeitgeist」-約10年前のスパムフィルターの成功後の広範な認識 書きやすい 分類子モデルの構築は高速です モデルを再構築することなく、新しいトレーニングデータでモデルを変更できます。 しかし、それらは「素朴」です-つまり、特徴が独立していると仮定します-これは、最大エントロピー分類器(計算が遅い)などの他の分類器とは対照的です。 独立性の仮定は通常仮定することができず、スパムフィルターの例を含む多くの(ほとんど?)場合、それは単に間違っています。 では、なぜ機能が互いに独立していない場合でも、Naive Bayes Classifierはそのようなアプリケーションで非常に優れたパフォーマンスを発揮するのでしょうか?

2
ポアソン回帰と負の二項回帰はいつ同じ係数に適合しますか?
Rでは、ポアソン回帰と負の二項(NB)回帰が常にカテゴリカルではあるが連続ではない予測子の係数に適合するように見えることに気付きました。 たとえば、カテゴリー予測子を使用した回帰は次のとおりです。 data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) ポアソンとNBが異なる係数に適合する連続予測子の例を次に示します。 data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (もちろん、これらはデータをカウントするものではなく、モデルは意味がありません...) 次に、予測変数を係数に再コーディングすると、2つのモデルが同じ係数に再び適合します。 library(Hmisc) speedCat = cut2(cars$speed, g=5) #you can change …

5
コックス回帰の予測
多変量Cox回帰を行っています。重要な独立変数とベータ値があります。モデルは私のデータに非常によく適合しています。 次に、モデルを使用して、新しい観測の生存を予測したいと思います。Coxモデルを使用してこれを行う方法は不明です。線形回帰またはロジスティック回帰では、新しい観測の値を回帰に入れ、それらにベータを掛けるだけで簡単になり、結果を予測できます。 ベースラインの危険性を判断するにはどうすればよいですか?予測の計算に加えて、それが必要です。 これはCoxモデルでどのように行われますか?

9
このプロットの
次のプロットのYYYとXの関係は何XXXですか?私の見解では、負の線形関係がありますが、多くの外れ値があるため、関係は非常に弱いです。私は正しいですか?散布図をどのように説明できますか。

2
モデルの識別可能性とは何ですか?
識別できないモデルの場合、データはモデルパラメーターへの複数の異なる割り当てによって生成されると言えます。Cassella&Berger 2nd ed、セクション11.2の例のように、すべてを識別できるようにパラメーターを制限できる場合があることを知っています。 特定のモデルが与えられた場合、それが識別可能かどうかをどのように評価できますか?

6
信頼できる地域とベイジアン仮説検定の関係は何ですか?
頻繁な統計では、信頼区間とテストの間には密接な関係があります。約推論使用におけるN (μ 、σ 2)一例として分布を、1 - α信頼区間 ˉ X ± T α / 2(N - 1 )⋅ S / √μμ\muN (μ 、σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1 - α1−α1-\alpha は、有意水準αでt検定によって拒否されないμのすべての値が含まれます。バツ¯± tα / 2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha この意味で、頻繁な信頼区間は逆のテストです。(ちなみに、私たちは解釈できることを、この手段の最小値として-値αパラメータのNULL値が含まれるであろうために1 - α。信頼区間は、私は、これは何を説明するのに便利な方法であることができることを見つけますp値は、実際には少しの統計を知っている人向けです。)pppαα\alpha1 - α1−α1-\alphappp ベイズの信頼できる領域の決定理論的基礎について読んで、私は信頼できる領域とベイズのテストの間に同様の接続/同等性があるかどうか疑問に思い始めました。 一般的な接続はありますか? 一般的な接続がない場合、接続がある例はありますか? 一般的な接続がない場合、どのようにこれを見ることができますか?

7
Rデータセット(.rdaファイル)を表示するのに適したブラウザー/ビューアーはありますか
.rdaファイル(Rデータセット)を参照したい。View(datasetname)コマンドについて知っています。Mac用のデフォルトのR.appには、データ用の優れたブラウザーがありません(X11でウィンドウを開きます)。Viewコマンドで開くRStudioデータブラウザーが好きです。ただし、1000行のみが表示され、残りは省略されます。(更新:RStudioビューアーにすべての行が表示されるようになりました)データセット内のすべての行を表示し、好きな/使用する優れたブラウザーはありますか。
38 r 

8
変更スコアに対する独立変数の効果をテストするときに、ベースライン測定値を制御変数として含めることは有効ですか?
OLS回帰を実行しようとしています。 DV:1年にわたる重量の変化(初期重量-終了重量) IV:運動するかどうか。 しかし、体重の多い人は、thinnerせた人よりも運動単位あたりの体重が減るのが妥当と思われます。したがって、制御変数を含めたかったのです。 CV:初期開始重量。 ただし、従属変数ANDを制御変数として計算するために両方で初期重みが使用されるようになりました。 これでいいですか?これはOLSの前提に違反しますか?

4
通常のランダム変数の近似次数統計
特定のランダム分布の次数統計のためのよく知られた公式はありますか?特に、通常のランダム変数の最初と最後の統計値ですが、より一般的な回答も歓迎します。 編集:明確にするために、厳密な積分式ではなく、多少なりとも明示的に評価できる近似式を探しています。 たとえば、通常のrvの1次統計量(つまり最小値)について、次の2つの近似を見ました。 e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma そして e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma これらの最初のについては、およそを与えます。n=200n=200n=200e1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigma 2番目はを与えますが、素早いモンテカルロはを与えます。さらに重要なことに、私はそれがどこから来たのかについて直感を持っていません。e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmae1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigma 助けがありますか?

5
Rの時系列「クラスタリング」
時系列データのセットがあります。各シリーズは同じ期間をカバーしますが、各時系列の実際の日付がすべて正確に「揃っている」わけではありません。 つまり、時系列が2Dマトリックスに読み込まれる場合、次のようになります。 date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 時系列{T1、T2、... TN}を「家族」に分離するRスクリプトを記述します。ここで、家族とは、「共感して移動する傾向がある」一連のシリーズとして定義されます。 「クラスタリング」の部分では、一種の距離測定を選択/定義する必要があります。私は時系列を扱っているため、これをどのように行えばよいのかよくわかりません。1つの間隔で同情的に移動する可能性のある一連のシリーズは、後続の間隔ではそうなりません。 ここにいるよりもはるかに経験豊富で賢い人がいると確信しているので、距離測定に使用するアルゴリズム/ヒューリスティックに関する提案、アイデア、および時系列のクラスタリングでそれを使用する方法に関するアイデアに感謝します。 私の推測では、これを行うための確固たる統計的方法は確立されていないので、統計学者のように考えて、人々がこの問題にどのようにアプローチ/解決するのか非常に興味があります。

9
ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(kkkが指定されている)などのクエリにすばやく応答することに興味があります。 現在、私はそのような質問に答えるためにランダムシミュレーションを使用しています。p_iに従って各X_iをランダムに描画XiXiX_iし、すべてのX_i値を合計してY 'を取得します。このプロセスを数千回繰り返し、時間の小数部分\ Pr(Y '\ leq k)を返します。pipip_iXiXiX_iY′Y′Y'Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k) 明らかに、これは完全に正確ではありません(ただし、シミュレーションの数が増えると精度は大幅に向上します)。また、使用シミュレーションを回避するのに十分な分布に関するデータがあるようです。正確な確率\ Pr(Y \ leq k)を取得する合理的な方法を考えることができますPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)か? PS PerlとRを使用しています。 編集 回答に続いて、私はいくつかの説明が必要かもしれないと思った。問題の設定について簡単に説明します。円周cとnそれにマッピングされた一連の範囲を持つ円形ゲノムが与えられます。たとえば、c=3*10^9およびranges={[100,200],[50,1000],[3*10^9-1,1000],...}。すべての範囲が閉じていることに注意してください(両端が含まれます)。また、整数(全体の単位)のみを扱うことに注意してください。 特定のnマッピング範囲で覆われている円上の領域を探しています。したがってx、円上の与えられた長さの範囲がカバーされているかどうかをテストするために、n範囲がランダムにマッピングされるという仮説をテストします。マッピングされた長さの範囲が指定された長さの範囲をq&gt;x完全にカバーする確率xは(q-x)/cです。この確率cは、大きい場合や小さい場合に非常に小さくなりますq。私が興味を持っているのは、nをカバーする範囲の数(範囲外)xです。これがY形成される方法です。 帰無仮説と片側の代替(アンダーカバー)をテストします。また、複数の仮説(異なるx長さ)をテストしていることにも注意してください。これを必ず修正してください。

8
ランダムな正半相関行列を効率的に生成する方法は?
正半値(PSD)相関行列を効率的に生成できるようにしたいと思います。生成する行列のサイズを大きくすると、私の方法は劇的に遅くなります。 効率的なソリューションを提案できますか?Matlabの例を知っているなら、私はとてもありがたいです。 PSD相関行列を生成するとき、生成される行列を記述するパラメータをどのように選択しますか?平均相関、相関の標準偏差、固有値?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.