統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

15
なぜパラメトリック統計がノンパラメトリックよりも優先されるのでしょうか?
誰かが仮説検定や回帰分析のためにノンパラメトリック統計手法よりもパラメトリックを選択する理由を説明できますか? 私の考えでは、それはあなたがそれを濡らさないかもしれないので、ラフティングに行き、非防水時計を選ぶようなものです。あらゆる機会に機能するツールを使用してみませんか?


4
なぜ空間自己相関のGAMアカウントに緯度と経度を含めるのですか?
森林破壊のための一般化された加算モデルを作成しました。空間的自己相関を説明するために、緯度と経度を平滑化された相互作用項(つまりs(x、y))として含めました。 著者は「空間的自己相関を考慮して、ポイントの座標は平滑化された用語として含まれている」と言う多くの論文を読んでこれを基にしましたが、これらが実際にそれを説明する理由を説明したことはありません。とてもイライラします。私は答えを見つけることを期待してGAMで見つけることができるすべての本を読みましたが、ほとんど(たとえば、一般化された加算モデル、Rの紹介、SN Wood)は説明なしで主題に触れています。 誰かが空間自己相関の緯度と経度の説明を含める理由を説明できれば、本当に感謝していますs(x、y)inとなしのモデル?また、この用語で説明される逸脱は、空間的自己相関の程度を示していますか?


8
テストデータがトレーニングデータに漏れないようにする方法を教えてください。
予測モデルを構築している人がいると仮定しますが、その人は必ずしも適切な統計的または機械学習の原則に精通しているとは限りません。たぶん私たちは学習中のその人を助けているかもしれませんし、あるいはその人は使用するのに最低限の知識しか必要としない何らかのソフトウェアパッケージを使っているかもしれません。 この人は、実際のテストがサンプル外の精度(またはその他のメトリック)に由来することを非常によく認識するかもしれませんデータの。しかし、私の懸念は、心配する微妙な点があることです。単純な場合、彼らはモデルを構築し、トレーニングデータで評価し、保留されているテストデータで評価します。残念ながら、その時点で戻ってモデル化パラメーターを微調整し、同じ「テスト」データで結果を確認するのは非常に簡単な場合があります。この時点で、データはもはやサンプル外のデータではなく、オーバーフィッティングが問題になる可能性があります。 この問題を解決する1つの潜在的な方法は、多くのサンプル外のデータセットを作成して、各テストデータセットを使用後に破棄し、まったく再利用しないようにすることです。ただし、これには多くのデータ管理が必要です。特に、分析の前に分割を行う必要があります(したがって、事前に分割数を知る必要があります)。 おそらく、従来のアプローチはk倍交差検証です。しかし、ある意味では、特にまだ学習している人にとって有用だと思う「トレーニング」と「テスト」のデータセットの区別を失います。また、これはすべてのタイプの予測モデルに意味があるとは確信していません。 経験の浅いユーザーにはまだある程度明確でありながら、オーバーフィットと漏れのテストの問題を克服するために見落としている方法はありますか?

9
回帰の変数選択に投げ縄を使用することの欠点は何ですか?
私が知っていることから、変数選択に投げ縄を使用すると、相関入力の問題が処理されます。また、最小角度回帰と同等であるため、計算が遅くなりません。ただし、多くの人々(たとえば、生物統計学を行うことを知っている人々)は、まだ段階的または段階的な変数選択を好むようです。投げ縄を使用することで不利になる実用的な欠点はありますか?


3
xkcd jelly bean comicについて説明してください:何が​​面白いのでしょうか?
私は、彼らが実行さ20回の合計試験のうち一度、ことがわかり、ので、誤った結果が(有意である、20回の試験のうちの1つの間にそれを想定0.05 = 1 / 20)。p &lt; 0.05p&lt;0.05p < 0.050.05 = 1 / 200.05=1/200.05 = 1/20 xkcdジェリービーンコミック-"Significant" タイトル:重要 ホバーテキスト:「だから、ええと、私たちは再び緑の研究を行ったが、リンクは得られなかった。おそらく「-」グリーンジェリービーン/ニキビのリンクに関する研究の混乱。

2
ZCAホワイトニングとPCAホワイトニングの違いは何ですか?
ZCAホワイトニングと通常のホワイトニング(主成分をPCA固有値の平方根で除算して得られる)について混乱しています。私の知る限りでは、 xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ここでUU\mathbf UはPCA固有ベクトルです。 ZCAホワイトニングの用途は何ですか?通常のホワイトニングとZCAホワイトニングの違いは何ですか?

7
コスト関数の評価が遅い場合の最適化
勾配降下法や他の多くの方法は、コスト関数で局所的な最小値を見つけるのに役立ちます。それらは、数値的であろうと分析的であろうと、コスト関数が各ポイントで迅速に評価できる場合に効率的です。 異常な状況に見えるものがあります。私のコスト関数の評価はそれぞれ高価です。グラウンドトゥルースサーフェスに対して3Dサーフェスを最小化する一連のパラメーターを見つけようとしています。パラメーターを変更するたびに、サンプルコホート全体に対してアルゴリズムを実行して、その効果を測定する必要があります。勾配を計算するには、15個すべてのパラメーターを個別に変更する必要があります。つまり、すべてのサーフェスを再生成し、勾配ごとにサンプルコホート方法と比較する回数が多すぎます。 私はこの問題を回避する方法を開発し、現在評価していますが、高価なコスト関数の評価に関する文献にあまり見当たらないことに驚いています。これは、私が問題をそれよりも難しくしているのか、そしてすでに利用可能なより良い方法があるかもしれないのではないかと思うようになります。 だから私の質問は基本的にこれです:評価が遅いときに、凸関数であるかどうかにかかわらず、誰もがコスト関数を最適化する方法を知っていますか?または、アルゴリズムを再実行してサンプルコホートと何度も比較することで、そもそもばかげたことをしていますか?

13
大規模な研究で帰無仮説を棄却できなかった場合、それは帰無の証拠ではありませんか?
帰無仮説の有意性検定の基本的な制限は、研究者が帰無を支持する証拠を収集できないことです(ソース) この主張は複数の場所で繰り返されていますが、その正当性を見つけることはできません。我々は大規模な研究を行い、私たちがした場合、帰無仮説に対して統計学的に有意な証拠を見つけていない、という証拠ではないため帰無仮説は?

3
対角線に定数を追加することで、尾根の推定がOLSよりも良くなるのはなぜですか?
リッジ回帰推定値は、残差平方和とサイズのペナルティを最小化することを理解していますββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] ただし、X'Xの対角に小さな定数を追加するだけでは、βridgeβridge\beta_\text{ridge}が\ beta_ \ text {OLS}と異なるという事実の重要性を完全には理解していません。確かに、βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 私の本では、これにより推定が数値的により安定になると述べていますが、なぜですか? 数値安定性は、リッジ推定値の0方向への収縮に関連していますか、それとも単なる偶然ですか?

6
頻度の高いベイジアンの議論はどこへ行ったのですか?
統計の世界は、フリークエンシーとベイジアンに分かれていました。最近では、誰もが両方を少しやっているようです。どうすればいいの?異なるアプローチが異なる問題に適している場合、統計の創設者はなぜこれを見なかったのですか?あるいは、頻度論者が議論に勝ち、真の主観的なベイジアンが決定理論に移行したのでしょうか?



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.