統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

16
正規性テストは「本質的に役に立たない」ですか?
元同僚はかつて次のように私に主張した: 通常、nullの下で、漸近的またはほぼ正常なランダム変数を生成するプロセスの結果に正規性テストを適用します (「漸近的」部分は大きくできない量に依存します)。安価なメモリ、ビッグデータ、高速プロセッサの時代では、正規性テストでは、大きなサンプル(非常に大きなものではないが)の正規分布のヌルを常に拒否する必要 があります。したがって、逆に、正規性テストは、おそらくより低いパワーとタイプIレートの制御が少ないと思われる小さなサンプルにのみ使用する必要があります。 これは有効な引数ですか?これはよく知られた議論ですか?正規性よりも「ファジーな」帰無仮説のよく知られたテストはありますか?

7
重回帰を実施する場合、予測変数をいつ中央に配置し、いつ標準化する必要がありますか?
いくつかの文献では、異なる単位の場合、複数の説明変数による回帰を標準化する必要があることを読みました。(標準化とは、平均値を減算し、標準偏差で除算することです。)他のどの場合にデータを標準化する必要がありますか?データを中央揃えするだけの場合(つまり、標準偏差で除算しない場合)がありますか?


6
データを0-1の範囲に正規化する方法は?
私はノーマライズに迷っています。誰でも私を案内してくれますか。 最小値と最大値、それぞれ-23.89と7.54990767があります。 5.6878の値を取得した場合、この値を0から1のスケールでスケーリングするにはどうすればよいですか。

11
自由度を理解する方法は?
ウィキペディアから、統計の自由度の3つの解釈があります。 統計では、自由度の数は、統計の最終計算で自由に変化できる値の数です。 統計パラメータの推定は、さまざまな量の情報またはデータに基づいて行うことができます。パラメーターの推定値に入る独立した情報の数は、自由度(df)と呼ばれます。一般的に、パラメータの推定値の自由度は、に等しい推定に入る独立したスコアの数マイナスパラメータ自体の推定における中間ステップとして使用されるパラメータの数(標本分散です、 1つは、サンプル平均が唯一の中間ステップであるためです)。 数学的には、自由度はランダムなベクトルの領域の次元、または本質的に「自由な」コンポーネントの数です。ベクトルが完全に決定されるまでに必要なコンポーネントの数。 大胆な言葉は私がよく理解していないものです。可能であれば、いくつかの数学的定式化が概念の明確化に役立ちます。 また、3つの解釈は互いに一致しますか?


16
統計的検定におけるp値とt値の意味は何ですか?
統計コースを受講してから仲間の学生を助けようとした後、頭を大きく叩くような刺激を与える1つの主題が統計仮説テストの結果を解釈していることに気付きました。学生は、与えられたテストに必要な計算を実行する方法を簡単に学びますが、結果を解釈することに夢中になっているようです。多くのコンピューター化されたツールは、「p値」または「t値」の観点からテスト結果を報告します。 統計の最初のコースを受講する大学生に次の点をどのように説明しますか: テスト対象の仮説に関して、「p値」とはどういう意味ですか?高いp値または低いp値を探す必要がある場合はありますか? p値とt値の関係は何ですか?


8
ユークリッド距離が高次元で適切なメトリックではないのはなぜですか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?


2
Rのlm()出力の解釈
Rのヘルプページでは、これらの数値の意味を知っていると想定していますが、わかりません。ここですべての数字を本当に直感的に理解しようとしています。出力を投稿し、見つけた内容についてコメントします。私が想定していることを書くだけなので、間違いがあるかもしれません。主に、係数のt値の意味と、それらが残差標準誤差を出力する理由を知りたいと思います。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 これは残差の5ポイントの要約です(平均は常に0ですよね?)。数値を使用して(ここで推測しています)、大きな外れ値があるかどうかをすばやく確認できます。また、残差が正規分布から遠く離れている場合(正規分布である必要があります)、すでにここで確認できます。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

6
ある便利か危険?
私はCosma Shaliziによるいくつかの講義ノート(特に、2番目の講義のセクション2.1.1)をざっと読んでいて、完全に線形のモデルを持っている場合でも非常に低い取得できることを思い出しました。R2R2R^2 Shaliziの例を言い換えると、モデルがありがわかっているとします。次にとの量は、分散が説明^ 2 \ Varの[X]ので、R ^ 2 = \ FRAC {^ 2 \ Varの[X]} {^ 2 \ Varの[X] + \ Varの[\イプシロン]}。これは、\ Var [X] \ rightarrow 0として0になり、\ Var [X] \ rightarrow \ inftyとして1になります。V R [ Yは] = 2 V Rを [ X ] + V R [ ε ] 2 …



12
95%信頼区間(CI)が95%の平均を含む可能性を意味しないのはなぜですか?
ここで関連するさまざまな質問を通じて、「95%信頼区間」と呼ばれる「95%」の部分は、サンプリングとCI計算の手順を何度も正確に複製するという事実に言及しているというコンセンサスがあるようです。 、こうして計算されたCIの95%に母平均が含まれます。また、この定義はそうではないというコンセンサスのようです単一の95%CIから、平均がCI内のどこかに落ちる可能性が95%あると結論付けることを許可します。ただし、95%の人口が人口の平均を含むと多くのCIを想像している限り、前者が後者を暗示していないことを理解していません(実際に計算されたCIが人口を含むかどうかに関して意味するかどうか)想像されるケースのベースレート(95%)を、実際のケースにCIが含まれる確率の推定値として使用することを強制しますか? 「実際に計算されたCIには母集団の平均が含まれているか含まれていないため、確率は1または0である」という行に沿って議論している記事を見ましたが、これは依存する確率の奇妙な定義を暗示しているようです未知の状態(つまり、友人が公正なコインを裏返し、結果を非表示にし、50%の可能性があると言ってはいけません)。 確かに私は間違っていますが、私のロジックがどこでおかしくなったのかわかりません...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.