統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

7
なぜp値は発見が偶然によるものである確率であると学生に教えるのが悪いのですか?
誰かにp値が確率であることを生徒に教えるのが良い考えではない理由を簡潔に説明してもらえますか(彼らの発見は[偶然]チャンスによる)。私の理解では、p値は確率です(より極端なデータを取得する|帰無仮説は真です)。 私の本当の関心は、それが前者であることを彼らに伝えることの害である(それはそうではないという事実は別として)。


4
シルエットプロットの平均解釈する方法は?
イムは、私のデータセット内のクラスタの数を決定するためにシルエットプロットを使用しようとしています。データセットを考えると電車、私は次のMATLABコードを使用しました Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 得られたプロットは、x軸としてして以下に与えられるクラスタの数とY軸シルエット値の平均。 どのように私はこのグラフを解釈するのですか?どのように私はこのことから、クラスタの数を決定するのですか?


4
XとYは相関していませんが、Xは重回帰におけるYの重要な予測因子です。どういう意味ですか?
XとYは相関していません(-.01)。ただし、Yを予測する重回帰にXを配置すると、3つの(A、B、C)他の(関連する)変数とともに、Xと2つの他の変数(A、B)がYの有意な予測子になります。 A、B)変数は回帰の外側でYと有意に相関しています。 これらの調査結果をどのように解釈すればよいですか?XはYの一意の分散を予測しますが、これらは相関関係がないため(ピアソン)、解釈が多少困難です。 私は反対のケースを知っています(つまり、2つの変数は相関していますが、回帰は重要ではありません)。それらは理論的および統計的観点から理解するのが比較的簡単です。予測子の一部は完全に相関しています(たとえば、.70)が、実質的な多重共線性が期待される程度ではないことに注意してください。たぶん私は間違っています。 注:以前にこの質問をしましたが、終了しました。合理的なのは、この質問が「どのように回帰が有意であるが、すべての予測変数が有意でない可能性があるのか​​」という質問と重複しているということでした。「おそらく、私は他の質問を理解していないが、これらは数学的にも理論的にも完全に別個の質問だと思う。私の回帰は「回帰が重要」かどうかから完全に独立している。これらの質問が理解できない理由で冗長な場合は、この質問を閉じる前にコメントを挿入してください。また、もう一方を閉じたモデレーターにメッセージを送りたいと思っていました同一の質問を回避するための質問ですが、そうするオプションを見つけることができませんでした。

3
t-SNEがクラスタリングまたは分類の次元削減手法として使用されないのはなぜですか?
最近の割り当てでは、MNISTの数字でPCAを使用して、寸法を64(8 x 8画像)から2に減らすように言われました。その後、ガウス混合モデルを使用して数字をクラスター化する必要がありました。2つの主成分のみを使用するPCAは、明確なクラスターを生成せず、その結果、モデルは有用なグループ化を生成できません。 ただし、2つのコンポーネントを持つt-SNEを使用すると、クラスターの分離が大幅に改善されます。ガウス混合モデルは、t-SNEコンポーネントに適用すると、より明確なクラスターを生成します。 2コンポーネントのPCAと2コンポーネントのt-SNEの違いは、MNISTデータセットに変換が適用された次の画像のペアで見ることができます。 t-SNEは、この回答のように高次元データの視覚化にのみ使用されることを読んでいますが、それが生成する明確なクラスタを考えると、なぜ分類モデルに使用される次元削減手法として使用されないのですか?スタンドアロンのクラスタリング方法?

3
ランダムフォレストモデルでの精度の平均低下とGINIの平均低下の解釈方法
ランダムフォレストパッケージからの変数の重要度の出力を解釈する方法を理解するのに少し苦労しています。通常、精度の平均低下は、「各フィーチャの値を並べ替えることによるモデルの精度の低下」として説明されます。 これは、機能全体または機能内の特定の値に関する記述ですか?どちらの場合でも、平均精度の低下は、問題のフィーチャ(またはフィーチャからの値)をモデルから削除することによって誤って分類された観測の数または割合ですか? 次のモデルがあるとします。 require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …



3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
CDFを使用して期待値を見つける
これは、本から出てくる宿題の問題だと言うことから始めます。数時間かけて期待値を見つける方法を調べましたが、何もわからないと判断しました。 LET CDF有する。 検索のそれらの値のためのれる存在します。XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) これを開始する方法すらわかりません。値が存在するかをどのように判断できますか?また、CDFをどうするかわかりません(これは累積分布関数を意味すると仮定しています)。周波数関数または密度関数がある場合に期待値を見つけるための公式があります。ウィキペディアによると、のCDFは、確率密度関数に関して次のように定義できます。αα\alphaXXXfff F(x)=∫x−∞f(t)dtF(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t)\,dt これは私が得た限りです。ここからどこに行きますか? 編集:私はを置くでした。x≥1x≥1x\ge1

6
データマイニング:機能フォームを見つけるにはどうすればよいですか?
私は、関数の関数形を発見するために使用することができ、再現手順について興味がy = f(A, B, C) + error_term私の唯一の入力は、観測値の集合である場合(y、A、BおよびC)。の機能形式fは不明であることに注意してください。 次のデータセットを検討してください。 AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

4
決定木の弱点は何ですか?
決定木は非常に理解しやすい機械学習方法のようです。一度作成されると、人間が簡単に検査できるため、アプリケーションによっては大きな利点があります。 デシジョンツリーの実際の弱点は何ですか?

3
「弱い学習者」とはどういう意味ですか?
「弱い学習者」という語句の意味を教えてください。それは弱い仮説であると思われますか?弱い学習者と弱い分類器の関係について混乱しています。両方とも同じですか、それとも何らかの違いがありますか? AdaBoostのアルゴリズムでは、T=10。それはどういう意味ですか?なぜ選択するのT=10ですか?

3
(深い)ニューラルネットワークが他の方法より明らかに優れていなかった、教師あり学習の問題はありますか?
私は人々がSVMとカーネルに多くの努力を注いでいるのを見てきましたが、彼らは機械学習のスターターとしてかなり面白そうです。しかし、ほぼ常に(深い)ニューラルネットワークの点で優れたソリューションを見つけることができると期待する場合、この時代に他の方法を試すことの意味は何ですか? このトピックに関する私の制約は次のとおりです。 教師あり学習のみを考えます。回帰および分類。 結果の可読性はカウントされません。教師あり学習問題の精度のみが重要です。 計算コストは​​考慮されていません。 他の方法が役に立たないと言っているわけではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.