統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
トレーニング、検証、テストなどの相互検証。なぜ3つのサブセットが必要なのですか?
相互検証プロセスに関して質問があります。私は、Curseraの機械学習のコースの途中にいます。トピックの1つは相互検証に関するものです。フォローするのが少し難しいと感じました。モデルが将来の(未知の)データに対して適切に機能し、CVがオーバーフィッティングを防ぐため、CVが必要な理由を知っています。ただし、プロセス自体は混乱を招きます。 私が理解したことは、データを3つのサブセット(トレーニング、検証、テスト)に分割することです。トレーニングと検証は、モデルの最適な複雑さを見つけることです。私が理解していないのは、3番目のサブセットです。モデルの多くの機能を使用し、トレーニングして検証サブセットで検証し、構造を変更するときに最小コスト関数を探すことを理解しています。見つかったら、テストサブセットでモデルをテストします。検証サブセットで最小コスト関数を既に見つけた場合、テストサブセットで再度テストする必要があるのはなぜですか? 誰かがこれを明確にしてくれますか? ありがとうございました

3
なぜ独立変数を中央揃えすると、節度によって主効果が変わるのでしょうか?
このCVスレッドに触発された重回帰と相互作用に関連する質問があります:中心変数階層回帰分析を使用した相互作用項?どの変数を中心にすべきか? 節度効果を確認するとき、相互作用項を計算するために、独立変数を中央に配置し、中央に配置した変数を乗算します。次に、回帰分析を実行し、主効果と相互作用効果を確認します。 センタリングせずに分析をやり直した場合、明らかに決定係数()は変わりませんが、回帰係数()は変わります。それは明確で論理的なようです。R2R2R^2ββ\beta 理解できないこと:主効果のp値はセンタリングによって大幅に変化しますが、相互作用はそうではありません(正しい)。したがって、私の主な効果の解釈は劇的に変わる可能性があります-センタリングによって決定されるだけです。(両方の分析で同じデータです!) 誰かが明らかにできますか?-それは、変数を中央に配置するオプションが必須であり、誰もが同じデータで同じ結果を得るためにそれを行う必要があることを意味するためです。 その問題と包括的な説明を配布してくれてありがとう。あなたの助けが非常に高く評価されることを保証してください! 私にとって、センタリングの最大の利点は、多重共線性を回避することです。中央に配置するかどうかに関係なく、ルールを確立することは依然としてかなり混乱しています。私の印象では、ほとんどのリソースが集中することを示唆していますが、それを行う際に「リスク」がいくつかあります。繰り返しますが、同じ資料とデータを扱う2人の研究者が異なる結果を結論付ける可能性があるという事実を出したいと思います。私はちょうどボルツの本の一部を読みました(彼は教授であり、ドイツとヨーロッパの統計スターの一種でした)。彼はその手法についても言及していません。変数が相互作用に関与している場合、変数の主な効果を解釈する際には注意が必要であると指摘しています。 結局、1つのIV、1つのモデレーター(または2番目のIV)、およびDVを使用して回帰を実行する場合、中央に配置することをお勧めしますか?

1
標準および球面k-meansアルゴリズムの違い
標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。 各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。 球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。 それだけですか、それとも何かありますか?

3
変数選択を実行するときに多重共線性に対処する方法は?
9つの連続した独立変数を持つデータセットがあります。私はこれらの変数の中から選択して、モデルを単一のパーセンテージ(従属)変数に適合させようとしていますScore。残念ながら、いくつかの変数の間には深刻な共線性があることがわかっています。 私はstepAIC()変数選択のためにR の関数を使用しようとしましたが、奇妙なことに、その方法は変数が方程式にリストされている順序に敏感なようです... Rコードは次のとおりです(パーセンテージデータであるため、スコアにはロジット変換を使用します)。 library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 何らかの理由で、方程式の先頭にリストされている変数がstepAIC()関数によって選択されることになり、結果は、たとえばVar9最初に(チルダに続いて)リストすることで操作できることがわかりました。 ここでモデルを適合させるより効果的な(そして論争の少ない)方法は何ですか?私は実際に線形回帰を使用することについては行き詰まっているわけではありません。私が望むのは、9つの変数のどれが変数の変動を本当に引き起こしているかを理解できることScoreです。これは、これらの9つの変数の共線性の強力な可能性を考慮に入れた方法であることが望ましい。

4
3つのランダム変数の相関の限界
x、y、zの 3つのランダム変数がありますx 、y、zx,y,zx,y,z。3つの変数間の3つの相関は同じです。あれは、 ρ = cor(x 、y)= cor(x 、z)= cor(y、z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) \ rhoに与えることができる最も厳しい限界は何ρρ\rhoですか?

6
部分的にペアリングされたデータと部分的にペアリングされていないデータのt検定
調査員は、いくつかのデータセットの複合分析を作成したいと考えています。一部のデータセットには、治療AとBのペアの観測値があります。他のデータセットには、ペアになっていないAとBのデータがあります。このような部分的にペアになったデータのt検定の適応、または尤度比検定のリファレンスを探しています。私は(今のところ)等分散の正規性を仮定し、Aの母平均は各研究(およびB)でも同じであると仮定します。

2
RSSがカイ二乗倍npで配信​​されるのはなぜですか?
OLSモデルでは、RSS(残差平方和)が(はモデル内のパラメーター数、は観測数)に分布している理由を理解したいと思います。のP Nχ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn このような基本的な質問をしたことをおaびしますが、オンライン(またはアプリケーション指向の教科書)で答えを見つけることができないようです。

3
信頼区間と仮説検定の違いは何ですか?
仮説検定に関する論争について読んだことがありますが 、一部の解説者は仮説検定を使用すべきではないと示唆しています。一部の解説者は、代わりに信頼区間を使用することを提案しています。 信頼区間と仮説検定の違いは何ですか?参照と例による説明をいただければ幸いです。


4
Rで次元削減を行う方法
私は、a(i、j)が個々のiがページjを閲覧した回数を教えてくれるマトリックスを持っています。27Kの個人と95Kのページがあります。一緒に表示されることが多いページのセットに対応するページのスペースに、いくつかの「ディメンション」または「アスペクト」を持ちたいと思います。私の最終的な目標は、次元1、次元2などに該当するページを個人がどれだけ頻繁に閲覧したかを計算できるようにすることです。 主成分分析と単一値分解に関するRのドキュメントを読んで、これらのコマンドを実行しましたが、どのように進めたらよいかわかりません。 次元削減を使用してこれを行うにはどうすればよいですか?または、これは本当にクラスタリングの問題であり、代わりにクラスタリングアルゴリズムを調べる必要がありますか? 洞察力に感謝します〜l

5
なぜガウス過程の平均関数は面白くないのですか?
GPについて読み始めたばかりで、平均関数と共分散関数またはカーネルによって特徴付けられる正規のガウス分布に類似しています。私は話をしていましたが、スピーカーは、平均関数は通常非常に面白くなく、すべての推論の努力は正しい共分散関数の推定に費やされていると言いました。 なぜそうなるべきかを誰かが私に説明できますか?

8
良い完全な確率と統計の本を探しています
私は数学の教員から統計コースを訪問する機会がありませんでした。私は、完全で自給自足の確率論と統計の本を探しています。完全とは、結果だけでなくすべての証明が含まれていることを意味します。自給自足とは、本を理解するために別の本を読む必要がないことを意味します。もちろん、大学レベル(数学の学生)の微積分と線形代数が必要になる場合があります。 私は複数の本を見ましたが、どれも好きではありませんでした。 DeGroot&Schervish(2011)確率と統計(第4版)ピアソン これは十分に完了していません。それは、派生せずに多くのものを述べているだけです。それに加えて、私はそれが好きです。 Wasserman(2004)すべての統計:統計的推論スプリンガーの簡潔なコース。 まったく気に入らなかった。ほとんど説明はありません。 David Williamsの「Weighing the Odds」は、DeGrootよりも正式であり、完全かつ自給自足のようです。しかし、そのスタイルは奇妙だと思います。彼はまた、自分だけが使用していると思われる新しい用語を発明しています。DeGrootで説明されているものもすべて、より適切に説明されています。 あなたがドイツ語で素晴らしい本を知っているなら、それは私がドイツ人であるので大丈夫です。


4
サンプルサイズ、サンプル平均、母平均のみがわかっているスチューデントのt検定を実行する方法は?
スチューデントのは、サンプルの標準偏差sが必要です。ただし、サンプルサイズとサンプル平均のみがわかっている場合、sの計算方法は?tttssssss たとえば、サンプルサイズがでサンプル平均が112の場合、それぞれ112の値を持つ49個の同一サンプルのリストを作成しようとします。予想どおり、サンプルの標準偏差は0です。これにより、t検定でゼロ除算の問題が発生します。494949112112112494949112112112000ttt 追加データ: ACME North Factoryの労働者の平均収入は200 です。ACMEサウスファクトリーの49人の労働者のランダムサンプルの年間収入は112 ドルでした。この違いは統計的に有意ですか?$200$200\$200494949$112$112\$112 人口平均が200 だと言ってもいいですか?$200$200\$200

2
Lassoの前の標準化は本当に必要ですか?
Lasso回帰などの前に変数を標準化する3つの主な理由を読みました。 1)係数の解釈可能性。 2)収縮後の係数推定値の相対的な大きさにより、係数の重要度をランク付けする機能。 3)傍受の必要はありません。 しかし、私は最も重要な点について疑問に思っています。標準化によってモデルのサンプル外の一般化が改善されると考える理由はありますか?また、モデルにインターセプトが必要ないかどうかは気にしません。追加しても問題はありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.