統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
経験的尤度の例示的な用途は何ですか?
オーウェンの経験的可能性について聞いたことがありますが、最近まで興味のある論文で出くわすまで気にしませんでした(Mengersen et al。2012)。 それを理解するための努力の中で、観測されたデータの尤度は 、ここでおよびです。Σ I P I = 1 P I > 0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 しかし、私はこの表現を観察に関する推論を行うためにどのように使用できるかと結びつける精神的な飛躍をすることができませんでした。おそらく、モデルのパラメータについての尤度を考えることにあまりにも根ざしていますか? とにかく、私は概念を内在化するのに役立つ経験的可能性を採用しているいくつかの論文をGoogle Scholarで検索しています... 明らかに、経験的可能性に関するアートオーウェンの本がありますが、Googleブックスはすべてのおいしい部分を省き、私はまだ図書館間貸し出しの遅いプロセスにいます。 それまでの間、誰かが経験的尤度の前提とそれがどのように採用されているかを明確に示す論文や文書を親切に私に指し示すことができますか?EL自体の説明も歓迎します!

1
Google Prediction APIの背後には何がありますか?
Google Prediction APIはクラウドサービスで、ユーザーはトレーニングデータを送信して不思議な分類器をトレーニングし、後でスパムフィルターの実装やユーザー設定の予測など、着信データの分類を要求できます。 しかし、舞台裏には何がありますか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
MCMCアルゴリズムのエラーの例
マルコフ連鎖モンテカルロ法の自動チェックの方法を調査していますが、このようなアルゴリズムを構築または実装するときに発生する可能性のあるミスの例をいくつか紹介します。発行された論文で誤った方法が使用された場合のボーナスポイント。 他のタイプのエラー(たとえば、エルゴディックではないチェーン)にも関心があるのに、エラーがチェーンの不変分布が正しくないことを意味する場合に特に興味があります。 このようなエラーの例は、Metropolis-Hastingsが提案された移動を拒否したときに値を出力できないことです。
28 mcmc 


4
2つの共分散行列間の類似性または距離の測定
2つの対称共分散行列(どちらも同じ次元)の間に類似性または距離の尺度はありますか? ここでは、2つの確率分布のKL発散や、マトリックスに適用されないベクトル間のユークリッド距離の類似物を考えています。かなりの数の類似性測定があると思います。 理想的には、2つの共分散行列が同一であるという帰無仮説もテストしたいと思います。

3
データ分析のベストプラクティスについて学ぶためにgithubでフォローすべき人は誰ですか?
専門家のデータ分析コードを調べると役立ちます。私は最近githubを熟読しており、そこにデータ分析コードを共有する多くの人々がいます。これには、いくつかのRパッケージ(もちろんCRANから直接入手可能)が含まれますが、特にRを使用した再現性のある研究の例もあります(githubのこのRリストを参照)。 データ分析のベストプラクティスについて学ぶためにgithubでフォローする良い人は誰ですか? 必要に応じて、どのような種類のコードを共有し、なぜこれが役立つのですか?


4
GLMの疑似R 2乗式
擬似公式は、Rによる線形モデルの拡張、Julian J. Faraway(p。59)の本で見つけました。R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 これはGLMの疑似一般的な式ですか?R2R2R^2

3
Rでブートストラップを使用してp値を計算する
「ブート」パッケージを使用して、近似の両側ブートストラップp値を計算しますが、結果はt.testを使用したp値から遠すぎます。Rコードで何が間違っていたかわかりません。誰かが私にこのヒントを教えてください time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) > abs(b3$t0)) pvalue 両側のブートストラップp値(pvalue)= 0.4804ですが、t.testの両側p値は0.04342です。両方のp値は約11倍の差があります。これはどのように起こりますか?

6
興味深い、よく書かれた応用統計論文は何ですか?
読むのが楽しくて有益である統計の応用について説明する良い論文は何ですか?明確にするために、新しい統計手法を説明する論文(最小角度回帰に関する論文など)ではなく、実際の問題を解決する方法を説明する論文を探しています。 たとえば、私が探しているものに合う論文の1つは、2番目のCross-Validated Journal Clubの気候論文です。私は機械学習の論文ではなく、より統計的な論文を探していますが、それは一種の曖昧な区別だと思います(Netflix Prizeの論文は少し境界線として、センチメント分析に関する論文は何かとして分類します)私は探していません)。 私が見た統計の用途のほとんどは、教科書で見た小さな断片か、私自身の仕事に関連したもののどちらかだからですので、少し分岐したいと思います。

3
Rで時系列に注意を払う
振り返ってみると、時系列分析を初めて開始したときのことです。どのツール、Rパッケージ、インターネットリソースについて知りたいですか? 私が尋ねようとしているのは、どこから始めればいいですか?具体的には、Rを使用した時系列分析に「新しい」人のために、実際にそれを要約するRのリソースがあります。
28 r  time-series 

5
2つの多変量分布間の「距離」の測定
リソースを探しやすくするために、私がやろうとしていることを説明するための良い用語を探しています。 したがって、ポイントAとBの2つのクラスターがあり、それぞれが2つの値XとYに関連付けられており、AとBの間の「距離」を測定したいとします。 (分布は正常であると仮定できます)。たとえば、XとYがAでは相関しているがBでは相関していない場合、分布は異なります。 直観的には、Aの共分散行列を取得し、Bの各点がそこに収まる可能性を調べ、逆も同様です(おそらくマハラノビス距離のようなものを使用して)。 しかし、それは少し「アドホック」であり、おそらくこれを記述するためのより厳密な方法があります(もちろん、実際には3つ以上の変数を持つ3つ以上のデータセットがあります-私は自分のデータセットのどれかを特定しようとしています外れ値です)。 ありがとう!

3
Rの離散均一分布のデフォルト関数はありますか?
Rのほとんどの標準分布には、pdf / pmf、cdf / cmf、変位値、ランダム偏差(dnorm、pnorm、qnorm、rnormなど)のコマンドファミリがあります。 いくつかの標準コマンドを使用して離散均一分布のこれらの関数を再現するのは簡単ですが、Rの離散均一分布をモデル化するための組み込み関数の好ましい組み込みファミリは既にありますか?

7
任意の離散分布に基づいて数値を生成する方法は?
任意の離散分布に基づいて数値を生成するにはどうすればよいですか? たとえば、生成したい数字のセットがあります。次のように1〜3のラベルが付けられているとします。 1:4%、2:50%、3:46% 基本的に、パーセンテージは、乱数ジェネレーターからの出力に現れる確率です。区間[0、1]で均一な分布を生成する疑似乱数ジェネレーターがあります。これを行う方法はありますか? 持つことができる要素の数に制限はありませんが、%は100%になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.