統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
特徴選択に主成分分析(PCA)を使用する
私は機能選択が初めてであり、PCAを使用して機能選択を実行する方法を知りたいと思っていました。PCAは、情報価値のない入力変数を除外するために使用できる各入力変数の相対スコアを計算しますか?基本的に、分散または含まれる情報の量によって、データの元の機能を順序付けできるようにしたいと考えています。

8
サンプリングは「ビッグデータ」の時期に関連していますか?
それとももっと「そうなる」のでしょうか?ビッグデータは統計と関連知識をさらに重要にしますが、サンプリング理論を過小評価しているようです。 私は「ビッグデータ」の周りでこの誇大広告を見てきましたが、「なぜ」すべてを分析したいのか不思議に思わないでしょうか?「サンプリング理論」を設計/実装/発明/発見する理由はありませんでしたか?データセットの「母集団」全体を分析する意味がありません。できるからといって、やるべきだというわけではありません(愚かさは特権ですが、悪用すべきではありません:) だから私の質問はこれです:データセット全体を分析することは統計的に関連していますか?できることは、サンプリングを行った場合のエラーを最小限にすることです。しかし、そのエラーを最小化するコストは本当に価値がありますか?「情報の価値」は、超並列コンピューターでのビッグデータの分析に費やされる労力、時間コストなどの価値が本当にあるのでしょうか? 母集団全体を分析しても、結果はせいぜい推測であり、正しい確率が高くなります。おそらくサンプリングよりも少し高いでしょうか(それとももっと多いでしょうか?)、母集団の分析とサンプルの分析から得られる洞察は大きく異なりますか? それとも、「時代が変わった」と認めるべきでしょうか?十分な計算能力があれば、アクティビティとしてのサンプリングはそれほど重要ではなくなる可能性があります:) 注:私は議論を始めようとはしていませんが、ビッグデータが何をするのか(つまり、すべてを分析する)を理解し、サンプリングの理論を無視する(またはそうしない?)答えを探しています

9
線形代数のリファレンスブックは統計に適用されますか?
私はRで少し働いていて、PCA、SVD、QR分解、および多くのそのような線形代数結果(重み付き回帰などの推定を検査するとき)のようなものに直面しているので、誰かが良いものに関する推奨事項を持っているかどうかを知りたい理論的ではないが数学的に厳密であり、これらのトピックすべてを網羅した包括的な線形代数の本。

5
サンプル中央値の中心極限定理
同じ分布から得られた十分に多くの観測値の中央値を計算すると、中央極限定理は中央値の分布が正規分布に近づくと述べていますか?私の理解では、これは多数のサンプルの平均について当てはまりますが、中央値についても当てはまりますか? そうでない場合、サンプル中央値の基礎となる分布は何ですか?

10
クラスターの正しい数を決める方法は?
クラスターの中心を見つけて、k-meansクラスタリングでk個の異なるクラスタービンにポイントを割り当てます。これは、非常によく知られたアルゴリズムであり、ネット上のほとんどすべての機械学習パッケージにあります。しかし、私の意見で欠けている最も重要な部分は、正しいkの選択です。それに最適な値は何ですか?そして、最高の意味は何ですか? ここで説明する kを決定する方法としてシルエットプロットを見ることができる科学計算にMATLABを使用します。しかし、私はベイジアンアプローチにもっと興味があります。どんな提案も大歓迎です。

2
事後テストの前にグローバルテストが必要ですか?
ANOVAが重要な場合にのみ、ANOVA後の事後テストを使用できるとよく耳にします。 しかし、事後テストでは値を調整して、グローバルタイプIエラー率を5%に保ちます。ppp それでは、なぜ最初にグローバルテストが必要なのでしょうか? グローバルなテストが必要ない場合、「事後」という用語は正しいですか? または、複数の種類の事後テストがあります。一部は重要なグローバルテスト結果を想定しており、その他はその前提なしです。


5
多重比較のために重回帰のp値を調整するのは良い考えですか?
あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります(サービスのyes / noおよび機会の数を使用)。需要を理論的に説明できる予測変数/独立変数が10個あります(年齢、性別、収入、価格、人種など)。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。 私の質問:回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか?先行研究への言及は大歓迎です。

7
膨大な数の機能(> 10K)に最適なPCAアルゴリズム?
以前にStackOverflowでこれを尋ねましたが、SOで何の回答も得られなかったことを考えると、ここでの方が適切かもしれません。統計とプログラミングの交差点にあります。 PCA(主成分分析)を行うためのコードを書く必要があります。私はよく知られたアルゴリズムを閲覧し、これを実装しました。これは、私が知る限り、NIPALSアルゴリズムと同等です。最初の2〜3個の主成分を見つけるのに適していますが、収束が非常に遅くなるようです(数百から数千回の繰り返し)。必要なものの詳細は次のとおりです。 アルゴリズムは、膨大な数の機能(10,000〜20,000のオーダー)と数百のオーダーのサンプルサイズを扱う場合に効率的でなければなりません。 ターゲット言語はDであるため、まともな線形代数/マトリックスライブラリがなくても合理的に実装可能でなければなりません。Dはまだ1つもありません。 。 補足として、同じデータセットでRはすべての主成分を非常に高速に見つけるように見えますが、特異値分解を使用します。これは自分でコーディングしたいものではありません。

6
数学者のための統計入門
すでに確率に精通している数学者のための統計の良い紹介は何ですか?質問するための2つの明確な動機があり、異なる提案につながる可能性があります。 確率論者によって検討された多くの問題の背後にある統計的動機をよりよく理解したいと思います。 数学的な推測を形成するために時々行うモンテカルロシミュレーションの結果をよりよく解釈する方法を知りたいです。 最善の方法は、「確率論者のための統計」のようなものを探すのではなく、より入門的な情報源に行くことです。
54 references 

19
数学統計ビデオ
以前は数学統計に関する教科書の推奨事項を求めていた質問 誰もが数学統計に関する優れたオンラインビデオ講義を知っていますか?私が見つけた最も近いものは: 機械学習 計量経済学 更新:以下に挙げる多くの提案は、良い統計である101タイプの動画です。しかし、統計の厳密な数学的表現を提供するビデオがあるかどうか、特に疑問に思っています。つまり、mathoverflowに関するこのディスカッションで言及された教科書を使用するコースに付随する可能性のあるビデオ


5
PCAが(距離を伴う)幾何学的問題から(固有ベクトルを伴う)線形代数問題にどのように変化するかについての直感的な説明は何ですか?
私は(のような様々なチュートリアルや質問など、PCAについて多く、読んだ本1、この1、この1、およびこれを)。 PCAが最適化しようとしている幾何学的問題は、私には明らかです。PCAは、再構成(投影)エラーを最小化することで最初の主成分を見つけようとし、同時に投影データの分散を最大化します。 最初にそれを読んだとき、私はすぐに線形回帰のようなものを考えました。必要に応じて、勾配降下法を使用して解決できます。 しかし、その後、線形代数を使用して固有ベクトルと固有値を見つけることで最適化問題が解決されることを読んだとき、私の心は吹き飛ばされました。私は、この線形代数の使用がどのように作用するかを単純に理解していません。 だから私の質問は次のとおりです。PCAはどのようにして幾何学的最適化問題から線形代数問題に変わるのでしょうか?誰かが直感的な説明を提供できますか? 私のような答えを捜しているわけではない、この1と言い、「あなたはPCAの数学の問題を解決するとき、それは共分散行列の固有値と固有ベクトルを見つけることと等価なってしまいます。」固有ベクトルが主成分となる理由と、固有ベクトルが投影されるデータの分散となる理由を説明してください ちなみに、私はソフトウェアエンジニアであり、数学者ではありません。 注:上記の図は、このPCAチュートリアルから取られて変更されています。

10
ホールドアウト検証とクロス検証
私には、ホールドアウト検証は役に立たないようです。つまり、元のデータセットを2つの部分に分割し(トレーニングとテスト)、テストスコアを一般化の尺度として使用することは、役に立たないでしょう。 K分割交差検証は、一般化のより良い近似を提供するようです(すべての点でトレーニングとテストを行うため)。それでは、なぜ標準のホールドアウト検証を使用するのでしょうか?それともそれについて話す?

4
共分散と独立性?
私は教科書から、はXとYが独立していることを保証しないと読みました。しかし、それらが独立している場合、それらの共分散は0でなければなりません。適切な例はまだ考えられません。誰かがそれを提供できますか?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.