統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
単純ベイズと多項式単純ベイズの違い
以前、単純ベイズ分類器を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。 また、事後確率=(事前*尤度)/(証拠)。 Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い(これらの分類子のプログラミング中)は、 多項ナイーブベイズする可能性を算出し、単語/トークンの数(確率変数)とナイーブベイズは、以下のことが可能性を計算します。 私が間違っている場合は修正してください!

1
因子分析における最高の因子抽出方法
SPSSは、因子抽出のいくつかの方法を提供します。 主成分(これは因子分析ではありません) 重みなし最小二乗 一般化最小二乗 最尤法 主軸 アルファ因数分解 画像ファクタリング 因子分析(ただし主成分分析、PCA)ではない最初の方法を無視すると、これらの方法のうちどれが「最良」ですか?さまざまな方法の相対的な利点は何ですか?そして基本的に、使用するものをどのように選択しますか? 追加の質問:6つの方法すべてから同様の結果を取得する必要がありますか?

3
ロジスティック回帰におけるオッズ比に対する単純な予測の解釈
私はロジスティック回帰を使用するのはやや新しいですが、次の値の解釈が同じだと思ったのに矛盾があるため、少し混乱しています。 指数化されたベータ値 ベータ値を使用した結果の予測確率。 これは私が使用しているモデルの簡易版です。栄養不足と保険は両方ともバイナリであり、富は連続しています。 Under.Nutrition ~ insurance + wealth 私の(実際の)モデルは、保険のために.8の指数化されたベータ値を返します。 「被保険者の栄養不足の確率は、保険のない個人の栄養不足の確率の0.8倍です。」 ただし、0と1の値を保険変数と富の平均値に入れることで個人の確率の差を計算すると、栄養不足の差はわずか.04です。次のように計算されます。 Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) これらの値が異なる理由と、(特に2番目の値について)より良い解釈が何かを誰かが説明できれば、本当に感謝しています。 さらなる明確化の編集 私が理解するように、無保険の人(B1は保険に相当する)の栄養不足の可能性は次のとおりです。 Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 被保険者の栄養不足の可能性は次のとおりです。 Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

1
相関行列のSVDは加算的である必要がありますが、
次の論文で見つかった主張を再現しようとしています。GeneExpression Dataからの相関バイクラスターの検索です。 命題4.。次にあります:バツ私J= R私CTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 私。場合加法モデルと完全bicluster、次いで列の相関を持つ完全biclusterあります。 ii。が加法モデルを備えた完全な双である場合、は行に相関がある完全な双クラスターです。 iii。と両方が加法モデルを備えた完全な双クラスターである場合、は完全な相関双クラスターです。 X I J C J X I J R I C J X I JR私RIR_{I}バツ私JXIJX_{IJ}CJCJC_Jバツ私JXIJX_{IJ}R私RIR_ICJCJC_Jバツ私JXIJX_{IJ} これらの命題は簡単に証明できます... ...しかし、もちろん、彼らはそれを証明しません。 この命題を実証できるかどうかを確認するために、紙に書かれた簡単な例とベース+カスタムRコードを使用しています。 corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (表1Fから) 論文で説明されているように、標準X = svdフォームをに変換するカスタムコード: X = R C TうんdVTUdVTUdV^Tバツ= R CTX=RCTX=RC^{T} svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) …

3
AICとc-statistic(AUC)が実際にモデルの適合を測定するものの違いは何ですか?
赤池情報量基準(AIC)とc統計量(ROC曲線の下の面積)は、ロジスティック回帰に適合するモデルの2つの尺度です。2つの測定の結果に一貫性がない場合、何が起こっているのかを説明するのに苦労しています。彼らはモデル適合のわずかに異なる側面を測定していると思いますが、それらの特定の側面は何ですか? 3つのロジスティック回帰モデルがあります。モデルM0にはいくつかの標準共変量があります。モデルM1はX1をM0に追加します。モデルM2は、X2をM0に追加します(したがって、M1とM2はネストされません)。 M0からM1とM2の両方へのAICの差は約15であり、X1とX2の両方がモデルの適合を改善し、ほぼ同じ量だけ改善することを示します。 c統計量は次のとおりです。M0、0.70。M1、0.73; M2 0.72。M0からM1へのc統計量の違いは重要ですが(DeLong et al 1988の方法)、M0からM2への違いは重要ではなく、X1はモデルの適合を改善しますが、X2はそうではありません。 X1は定期的に収集されません。X2は定期的に収集されることになっていますが、約40%のケースで欠落しています。X1の収集を開始するか、X2の収集を改善するか、両方の変数を削除するかを決定します。 AICから、変数はモデルに対して同様の改善を行うと結論付けます。完全に新しい変数(X1)の収集を開始するよりも、おそらくX2の収集を改善する方が簡単なので、X2収集の改善を目指します。しかし、c統計から、X1はモデルを改善し、X2は改善しないため、X2を忘れてX1の収集を開始する必要があります。 推奨事項は、どの統計に注目するかに依存するため、測定対象の違いを明確に理解する必要があります。 どんなアドバイスも歓迎します。
29 logistic  roc  aic  auc 

3
ポアソン分布は正規分布とどのように異なりますか?
次のように、ポアソン分布を持つベクトルを生成しました。 x = rpois(1000,10) を使用してヒストグラムを作成するhist(x)と、分布はおなじみのベル型の正規分布のように見えます。ただし、Kolmogorov-Smirnoffのテストでks.test(x, 'pnorm',10,3)は、p値が非常に小さいため、分布は正規分布とは大きく異なります。 だから私の質問は次のとおりです。ヒストグラムが正規分布に非常に似ている場合、ポアソン分布は正規分布とどのように異なりますか?

1
統計モデルと確率モデルの違いは?
応用確率は、計算確率を含む確率の重要な分岐です。統計は確率理論を使用してデータを処理するモデルを構築しているため、私の理解では、統計モデルと確率モデルの本質的な違いは何ですか?確率モデルは実際のデータを必要としませんか?ありがとう。

4
記録されたエラーの急増をアルゴリズムで識別する簡単な方法
早期警告システムが必要です。負荷がかかるとパフォーマンスの問題が発生することがわかっているサーバーを扱っています。エラーは、タイムスタンプとともにデータベースに記録されます。サーバーの負荷を軽減するために実行できる手動介入手順がいくつかありますが、誰かが問題を認識している場合のみです... エラーが発生した一連の時間を考えると、エラーの急増の始まりを(リアルタイムで)どうやって特定できますか?定期的に、またはエラーが発生するたびに計算できます。 偶発的なエラーについては気にしませんが、特定のしきい値はありません。たとえば、5分間で3つのエラーが発生したときはいつでも誰かに通知できますが、もっと良い方法があるはずです... sysadminsからのフィードバックに基づいてアルゴリズムの感度を調整できるようにしたいと思います。現時点では、ある程度の誤検知が予想されることはわかっていますが、彼らはかなり敏感であることを望んでいます。 私は統計学者ではありませんが、これは明らかであり、既存のツールであるSQL Serverと旧式のASP JScriptを使用してこれを実装するのは比較的簡単である必要があります。コードで答えを探しているわけではありませんが、追加のソフトウェアが必要な場合、おそらく機能しません(ただし、非現実的で理想的なソリューションをコメントとして歓迎しますが、私自身の好奇心のためです)。

3
2つ以上の回帰モデルの勾配を比較するために使用できるテストは何ですか?
1つの予測子に対する2つの変数の応答の違いをテストしたいと思います。最小限の再現可能な例を次に示します。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

4
トピックモデリング/ LDAを実行するためのRパッケージ:単に `topicmodels`と` lda` [終了]
潜在ディリクレ割り当てを実行できるのは2つのRパッケージのみであるように思われます。 1つはlda、Jonathan Changによって作成されました。もう1つはtopicmodelsBettinaGrünとKurt Hornikによって作成されました。 パフォーマンス、実装の詳細、および拡張性に関して、これら2つのパッケージの違いは何ですか?

2
Rで遷移行列(マルコフ)を計算する
R(組み込み関数)に一連の観測からマルコフ連鎖の遷移行列を計算する方法はありますか? たとえば、次のようなデータセットを取得して、一次遷移行列を計算しますか? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

2
正則化またはペナルティ化によるARIMAXモデルの適合(たとえば、なげなわ、エラスティックネット、またはリッジ回帰)
予測パッケージのauto.arima()関数を使用して、ARMAXモデルをさまざまな共変量に適合させます。ただし、選択する変数は多数あることが多く、通常はそれらのサブセットで機能する最終モデルになります。私は人間であり、バイアスの影響を受けるため、変数選択のアドホックな手法は好きではありませんが、時系列の相互検証は難しいので、利用可能な変数のさまざまなサブセットを自動的に試す良い方法が見つかりませんでした。自分の最高の判断力を使ってモデルを調整するのにこだわっています。 glmモデルを適合させると、glmnetパッケージを介して、正則化と変数選択にエラスティックネットまたは投げ縄を使用できます。ARMAXモデルでエラスティックネットを使用するための既存のツールキットがRにありますか、それとも自分でロールバックする必要がありますか?これは良いアイデアですか? 編集:ARとMAの項(例えばAR5とMA5まで)を手動で計算し、glmnetを使用してモデルに適合させるのは理にかなっていますか? 編集2:FitARパッケージは、そのすべてではなく一部を私に与えているようです。


6
シャピロウィルクテストの解釈
私は統計が初めてなので、あなたの助けが必要です。 次のような小さなサンプルがあります。 H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Rを使用してShapiro-Wilkテストを実行しました。 shapiro.test(precisionH4U$H4U) そして、私は次の結果を得ました: W = 0.9502, p-value = 0.6921 ここで、p値よりも0.05の有意水準がalpha(0.6921> 0.05)よりも大きいと仮定すると、正規分布に関する帰無仮説を拒否できませんが、サンプルに正規分布があると言えますか? ありがとう!

4
2x2より大きい分割表でのフィッシャーの正確検定
2x2の分割表にのみFisherの正確検定を適用するように教えられました。 質問: フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました(私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています) Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか? 分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.