統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


5
正規化と標準化の違いは何ですか?
職場では、上司が正規化について聞いたことがないので、これについて議論していました。線形代数では、正規化はベクトルをその長さで除算することを指しているようです。また、統計では、標準化は平均を差し引いてからそのSDで割ることを指すようです。しかし、それらは他の可能性とも互換性があるようです。 ある種のユニバーサルスコアを作成するとき、それは異なるメトリックを構成します。これらは異なる手段と異なるSDを持ち、正規化しますか、標準化しますか。ある人は、各メトリックを取得し、それらをSDで個別に分割するだけの問題だと言った。次に、2つを合計します。そして、それは両方のメトリックを判断するために使用できる普遍的なスコアになります。222 たとえば、地下鉄に乗って仕事をする人の数(NYCの場合)と、車で仕事に行く人の数(NYCの場合)があるとします。 車⟶ yのTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y 交通量の変動をすばやく報告するためにユニバーサルスコアを作成する場合、および追加することはできません。電車に乗る人が多くなるからです。NYCには800万人が住んでおり、さらに観光客もいます。車で毎日何十万人もの人々が電車に乗っている何百万人もの人々です。したがって、それらを比較するには、同様のスケールに変換する必要があります。平均(y )mean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) 場合mean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 およびmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 とを正規化し、合計しますか?とを標準化し、合計しますか?または、それぞれをそれぞれのSDで割り、合計しますか?変動するとき、合計のトラフィック変動を表す数値に到達するため。y x yxxxyyyxxxyyy 参考のために本の記事または章をいただければ幸いです。ありがとう! また、私がやろうとしていることの別の例もあります。 あなたが大学の学部長であり、入学要件について話し合っていると想像してください。少なくとも特定のGPAと特定のテストスコアを持つ学生が必要な場合があります。それらが両方とも同じ規模であれば、2つを加算して、「少なくとも7.0を持っている人なら誰でも認められる」と言うことができるのでいいでしょう。そうすることで、入学希望者が4.0 GPAを取得している場合、3.0のテストスコアを取得しても、入学することができます。逆に、3.0のGPAがあったとしても、4.0のテストスコアで入院することができます。 しかし、それはそうではありません。ACTは36ポイントスケールであり、ほとんどのGPAは4.0です(一部は4.3で、いらいらします)。ACTとGPAを追加して、ある種のユニバーサルスコアを取得することはできないため、それらを追加できるように変換して、ユニバーサルアドミッションスコアを作成するにはどうすればよいですか。そして、学部長として、特定のしきい値を超えるスコアを持つ人を自動的に受け入れることができました。または、スコアが上位95%以内にある全員を自動的に受け入れます。 それは正規化でしょうか?標準化?または、それぞれをSDで割ってから合計しますか?

8
因果関係は相関関係を意味しますか?
相関関係には多くの説明があるため、相関関係は因果関係を意味するものではありません。しかし、因果関係は相関関係を意味しますか?直観的に、因果関係の存在は必然的に何らかの相関関係があることを意味すると思います。しかし、私の直観は常に統計でうまく機能していません。因果関係は相関関係を意味しますか?

9
線形回帰モデルで切片を削除しても大丈夫ですか?
私は線形回帰モデルを実行しており、インターセプト項を削除するための条件は何かと考えています。 一方が切片を持ち、もう一方が切片を持たない2つの異なる回帰の結果を比較すると、切片のない関数のがはるかに高いことがわかります。インターセプト項の削除が有効であることを確認するために従うべき特定の条件または仮定はありますか?R2R2R^2

9
期待値最大化を理解するための数値例
EMアルゴリズムを十分に把握して、実装して使用できるようにしています。私は丸1日、理論と、レーダーからの位置情報を使用して航空機を追跡するためにEMが使用される論文を読みました。正直なところ、私は根本的なアイデアを完全に理解しているとは思わない。簡単な問題(ガウス分布や正弦波系列のシーケンスの推定、線のフィッティングなど)のためのEMの数回の反復(3-4)を示す数値例を誰かに教えていただけますか。 誰かが(合成データを使用して)コードの一部を指し示すことができたとしても、そのコードをステップスルーしてみることができます。


6
帰無仮説の下でp値が均一に分布するのはなぜですか?
最近、私はKlammerらによる論文で発見しました。p値を均一に分布させる必要があるというステートメント。著者を信じていますが、なぜそうなのか理解できません。 Klammer、AA、Park、CY、およびStafford Noble、W。(2009)SEQUEST XCorr関数の統計的キャリブレーション。プロテオームリサーチジャーナル。8(4):2106–2113。
115 p-value  uniform 

16
1000人中900人が車が青だと言った場合、青である確率はどのくらいですか?
これは最初、自然なテキストを分類するためにモデルに対して行っているいくつかの作業に関連して生じましたが、私はそれを単純化しました...おそらく多すぎます。 あなたは青い車を持っています(客観的な科学的尺度によると-それは青です)。 1000人に見せます。 900は青だと言います。100はありません。 車を見ることができない人にこの情報を与えます。彼らが知っているのは、900人が青いと言い、100人はそうではなかったということです。あなたはこれらの人々(1000)についてこれ以上何も知りません。 これに基づいて、「車が青くなる確率はいくらですか?」 これは私が尋ねた人々の間で意見の大きな相違を引き起こしました!正しい答えは何ですか?
114 probability 


10
ニューラルネットワークとディープニューラルネットワークの違いは何ですか?また、ディープニューラルネットワークの方が優れているのはなぜですか?
これらの用語で正確に述べられた質問を見たことがないので、新しい質問をするのはこのためです。 私が知りたいのは、ニューラルネットワークの定義ではなく、ディープニューラルネットワークとの実際の違いを理解することです。 コンテキストについて:ニューラルネットワークとは何か、逆伝播がどのように機能するかを知っています。DNNには複数の非表示層が必要であることを知っています。しかし、10年前のクラスでは、ニューラルネットワークが表現できる機能の点で、複数の層または1つの層(入力層と出力層をカウントしない)を持つことは同等であることを知りました(サイベンコの普遍近似定理を参照)、そしてレイヤーが増えると、パフォーマンスが向上せずに分析が複雑になります。明らかに、そうではありません。 私はおそらく間違っていると思いますが、違いは構造ではなくトレーニングアルゴリズムとプロパティの面にあり、したがって、答えがDNNへの移行を可能にした理由を強調することができれば本当に感謝します(たとえば、数学的な証明またはネットワークでランダムに遊ぶ?)および望ましい(例:収束の速度?)

2
多変量正規分布の条件付き分布の導出
多変量法線ベクトルY∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma)ます。分割考えるμμ\boldsymbol\muおよびYY{\boldsymbol Y}に μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix} Y=[y1y2]Y=[y1y2]{\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix} \ Sigmaの \ begin {bmatrix} \ Sigma_ {11}および\ Sigma_ {12} \\ \ Sigma_ {21}および\ Sigma_ {22} \ end {bmatrix} ΣΣ\Sigmaへの 同様のパーティションを使用して 、({\ boldsymbol y} _1 | {\ boldsymbol y} _2 …

4
非正規データとのピアソンまたはスピアマンの相関
統計コンサルティングの仕事でこの質問を頻繁に受け取っているので、ここに投稿したいと思いました。答えは下にありますが、他の人の意見を聞きたいと思いました。 質問:正規分布していない2つの変数がある場合、相関にスピアマンのrhoを使用する必要がありますか?

13
XKCDのフリークエンティスト対ベイジアンコミックの何が問題になっていますか?
このxkcdコミック(フリークエンティスト対ベイジアン)は、明らかに間違った結果を導き出す頻度の高い統計学者をからかいます。 しかし、彼の推論は標準的な頻度主義の方法論に従うという意味で実際に正しいように思えます。 私の質問は、「彼は頻繁な方法論を正しく適用しているのですか?」です。 「いいえ」の場合:このシナリオで正しい頻度の推論は何ですか?太陽熱安定性に関する「事前知識」を頻繁な方法論に統合するには? はいの場合:wtf?;-)

1
PCAを逆にし、いくつかの主成分から元の変数を再構築する方法は?
主成分分析(PCA)は、次元削減に使用できます。このような次元削減が実行された後、少数の主成分から元の変数/機能をどのように近似的に再構築できますか? あるいは、データから複数の主成分をどのように削除または破棄できますか? 言い換えれば、PCAを逆にする方法は? PCAが特異値分解(SVD)と密接に関連していることを考えると、次のように同じ質問をすることができます。SVDを逆にする方法は?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.