統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
既知のグループ分散、平均、およびサンプルサイズを指定して、2つ以上のグループのプールされた分散を計算する方法は?
言うがあるm+nm+nm+n要素は、二つのグループに分け(mmmおよびnnn)。第1グループの分散であり、σ2mσm2\sigma_m^2及び第2グループの分散であり、σ2nσn2\sigma^2_n。要素自体は不明であると想定されているが、私は知っている手段μmμm\mu_mとμnμn\mu_n。 複合分散計算する方法があるσ2(m+n)σ(m+n)2\sigma^2_{(m+n)}? 分散は不偏である必要はないので、分母は(m+n)(m+n)(m+n)あり、(m+n−1)(m+n−1)(m+n-1)ありません。
32 variance  pooling 



2
片側チェビシェフ不等式のサンプルバージョンは存在しますか?
チェビシェフ不等式の次の片側Cantelli版に興味があります。 P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 基本的に、母平均と分散がわかっている場合、特定の値を観測する確率の上限を計算できます。(少なくとも私の理解はそうでした。) ただし、実際の母集団の平均と分散の代わりに、標本の平均と標本の分散を使用したいと思います。 これにより不確実性が高まるため、上限が増加すると推測しています。 上記に類似した不等式はありますが、サンプルの平均と分散を使用していますか? 編集:チェビシェフ不等式の「サンプル」アナログ(片面ではない)が作成されました。Wikipediaのページには、いくつかの詳細を持っています。ただし、上記の片側のケースにどのように変換されるかはわかりません。

6
ほぼ正規分布のスケールを推定するためのロバストなベイジアンモデルはどうなりますか?
scaleの多数の堅牢な推定量が存在します。顕著な例は、標準偏差に関する中央値絶対偏差であるσ= M A D ⋅ 1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826。ベイジアンフレームワークでは、位置をロバストに推定する方法がいくつか存在しますは、おおよそ正規分布(たとえば、外れ値に汚染された正規)のたとえば、データが分布またはラプラス分布で分布していると仮定できます。今私の質問: ほぼ正規分布のスケールをロバストな方法で測定するためのベイジアンモデルは、MADまたは同様のロバストな推定量と同じ意味でロバストでしょうか? MADの場合と同様に、データの分布が実際に正規分布している場合に、ベイジアンモデルが正規分布のSDに近づくことができれば適切です。 編集1: データy私y私y_iがほぼ正規であると仮定した場合の汚染/外れ値に対してロバストなモデルの典型的な例は、次のような分布で使用しています。 y私〜T(M 、S 、ν)y私〜t(m、s、ν)y_i \sim \mathrm{t}(m, s,\nu) ここで、mmmは平均、sssはスケール、νν\nuは自由度です。m 、sm、sm, sおよびνν\nuに適切な事前分布がある場合、mmmは外れ値に対してロバストなの平均の推定yiy私y_i値になります。ただし、sssはνに依存するため、sはのSDの一貫した推定値ではありません。たとえば、νが4.0に固定され、上記のモデルがN o r m(μ =yiy私y_isssνν\nuνν\nu分布の場合、 sは約0.82になります。私が探しているのは、tモデルのようなロバストなモデルですが、平均の代わりに(または平均に加えて)SDです。Norm(μ=0,σ=1)Norm(μ=0、σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss 編集2: ここで、上記のtモデルがどのように平均に関してより堅牢であるかを示すRとJAGSのコード例を示します。 # generating some contaminated data y <- c( rnorm(100, mean=10, sd=10), rnorm(10, mean=100, sd= 100)) #### A "standard" normal model #### model_string …

7
「実行中の」線形またはロジスティック回帰パラメーターを計算するアルゴリズムはありますか?
http://www.johndcook.com/standard_deviation.htmlの論文「実行中の分散を正確に計算する」 は、実行中の平均、分散、標準偏差を計算する方法を示しています。 新しいトレーニングレコードが提供されるたびに、線形またはロジスティック回帰モデルのパラメーターを同様に「動的に」更新できるアルゴリズムはありますか?

5
Rでワイド形式とロング形式の間でデータを変更するにはどうすればよいですか?[閉まっている]
データはワイド形式またはロング形式で保存できます。使用可能なメソッドは形式によって異なるため、これは非常に重要なことです。reshapeパッケージを使用したり、パッケージを変更しmelt()たりする必要があることは承知していますが、理解できないことがcast()いくつかあります。 誰かがこれをどのように行うのか簡単な概要を教えてもらえますか?

2
評価の信頼区間を見つける方法は?
Evan Millerの「平均評価でソートしない方法」では、信頼区間の下限を使用して、評価されたアイテムの実用的な集計「スコア」を取得することを提案しています。ただし、ベルヌーイモデルでは機能しています。評価は「いいね」または「いいね」です。 アイテムの評価の数が少ないと仮定して、離散スコアを星に割り当てる評価モデルに使用する合理的な信頼区間とは何ですか?k111kkk 私は、ウィルソンとアグレスチ-クール間隔の中心をどのように適応させるかを見ることができると思います p~=∑ni=1xi+z2α/2p0n+z2α/2p~=∑i=1nxi+zα/22p0n+zα/22\tilde{p} = \frac{\sum_{i=1}^n{x_i} + z_{\alpha/2}^2\; p_0}{n + z_{\alpha/2}^2} ここで、または(おそらくより良い)すべてのアイテムの平均評価です。ただし、間隔の幅を調整する方法がわかりません。私の(改訂された)最高の推測はp0=k+12p0=k+12p_0 = \frac{k+1}{2} p〜± zα / 2n〜∑ni = 1(x私−p〜)2+ zα / 2(p0−p〜)2n〜−−−−−−−−−−−−−−−−−−−−−−−−−√p〜±zα/2n〜∑私=1n(バツ私−p〜)2+zα/2(p0−p〜)2n〜\tilde{p} \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\frac{\sum_{i=1}^n{(x_i - \tilde{p})^2} + z_{\alpha/2}(p_0-\tilde{p})^2}{\tilde{n}}} 、私は以上のようことを取る、Agresti-Coullのアナロジーとして手振ると正当化することができませんn〜= n + z2α / 2n〜=n+zα/22\tilde{n} = n + z_{\alpha/2}^2 見積もり(X¯)± zα / 2n〜見積もり(Var (X))−−−−−−−−−−−−−−−√見積もり(バツ¯)±zα/2n〜見積もり(ヴァール(バツ))\text{Estimate}(\bar{X}) \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\text{Estimate}(\text{Var}(X))} 適用される標準的な信頼区間はありますか?(私はジャーナルの購読や大学図書館への簡単なアクセスを持っていないことに注意してください;必ず適切な参考文献を与えてください、しかし実際の結果を補足してください!)

1
時系列上の混合効果モデルからの予測値の合計の分散
時系列の予測を行う混合効果モデル(実際には一般化された加算混合モデル)があります。自己相関に対抗するために、データが欠落しているという事実から、corCAR1モデルを使用します。データは私に総負荷を与えることになっているので、予測区間全体で合計する必要があります。ただし、その合計負荷の標準誤差の推定値も取得する必要があります。 すべての予測が独立している場合、これは次の方法で簡単に解決できます。 with V a r (E [ X i ] )= S E (E [ X i ] )2Va r (∑ni = 1E[ X私] )= ∑ni = 1Va r (E[ X私] )Var(∑私=1nE[バツ私])=∑私=1nVar(E[バツ私])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i])Va r (E[ X私] )= SE(E[ X私] )2Var(E[バツ私])=SE(E[バツ私])2Var(E[X_i]) = SE(E[X_i])^2 問題は、予測値がモデルからのものであり、元のデータに自己相関があることです。問題全体が次の質問につながります。 計算された予測のSEは、その予測の期待値の分散のルートとして解釈できると仮定して正しいですか?私は、予測を「平均予測」として解釈する傾向があるため、平均のセット全体を合計します。 この問題に自己相関を組み込むにはどうすればよいですか、または結果にあまり影響を与えないと安全に想定できますか? これはRの例です。実際のデータセットには約34.000の測定値があるため、スケーラビリティが問題になります。それが、私が毎月内に自己相関をモデル化する理由です。そうしないと、計算が不可能になります。それは最も正しい解決策ではありませんが、最も正しい解決策は実行不可能です。 set.seed(12) require(mgcv) …

3
ggplot2の散布図領域の周りにきちんとしたポリゴンを描く方法[非公開]
散布図上のポイントのグループの周りにきちんとしたポリゴンを追加するにはどうすればよいですか?私はggplot2を使用していますが、の結果には失望していますgeom_polygon。 データセットは、タブ区切りテキストファイルとしてそこにあります。以下のグラフは、多くの国における健康と失業に対する態度の2つの指標を示しています。 私はgeom_density2dより派手ではないが経験的により正確なものに切り替えたいgeom_polygonです。ソートされていないデータの結果は役に立ちません: min-max yx値の周りの輪郭パスとして動作する「きれいな」ポリゴンを描画するにはどうすればよいですか?データを無用にソートしようとしました。 コード: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) dオブジェクトを用いて得られる、このCSVファイル。 溶液: ウェイン、アンディ・W、その他の彼らのポインターに感謝します!データ、コード、グラフはGitHubに投稿されています。結果は次のようになります。


4
二項データのANOVA
実験データセットを分析しています。データは、治療タイプと二項式の結果のペアベクトルで構成されます。 Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... 結果列の1は成功を示し、0は失敗を示します。治療が結果を大きく変えるかどうかを知りたいです。4回の異なる治療があり、各実験は何度も繰り返されます(各治療で2000回)。 私の質問は、ANOVAを使用してバイナリの結果を分析できますか?または、二項データをチェックするためにカイ二乗検定を使用する必要がありますか?カイ2乗は割合が均等に分割されると仮定しているようですが、そうではありません。別のアイデアは、各治療の成功と失敗の割合を使用してデータを要約し、次に割合テストを使用することです。 この種の二項式の成功/失敗実験に意味のあるテストについてのあなたの推奨を聞きたいです。


6
テキストの統計的分類
私は統計的背景のないプログラマーであり、現在、事前に定義されたカテゴリーに分類したい多数の異なる文書について、異なる分類方法を検討しています。私はkNN、SVM、NNについて読んでいます。ただし、開始するのに苦労しています。どのリソースをお勧めしますか?私は単一変数および多変数計算を非常によく知っているので、私の数学は十分に強力でなければなりません。私は、Neural Networksに関するBishopの本も所有していますが、序論としては少々高密度であることが証明されています。

5
時間の影響が個人間で機能的な形で異なる縦断的データのモデリング
コンテキスト: 200人の参加者を対象に、20週間にわたって週に1回従属変数(DV)を測定する縦断的研究があると想像してください。私は一般的に興味がありますが、私が考えている典型的なDVには、雇用後の仕事のパフォーマンスや、臨床心理学的介入後のさまざまな幸福度測定が含まれます。 マルチレベルモデリングを使用して、時間とDVの関係をモデル化できることを知っています。また、係数(切片、勾配など)を個人間で変化させ、参加者の特定の値を推定することもできます。しかし、データを視覚的に検査したときに、時間とDVの関係が次のいずれかであることがわかったらどうなるでしょうか。 機能的な形式が異なります(おそらくいくつかは線形であり、他は指数関数的であるか、いくつかは不連続性を持っています) 誤差の分散が異なる(個人によっては、ある時点から次の時点までにより変動しやすい) 質問: このようなモデリングデータにアプローチする良い方法は何でしょうか? 具体的には、どのようなアプローチがさまざまなタイプの関係を識別し、そのタイプに関して個人を分類するのに適していますか? そのような分析のためのRにはどのような実装が存在しますか? これを行う方法に関する参考文献はありますか?教科書または実際のアプリケーションですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.