統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

28
主成分分析、固有ベクトル、固有値を理解する
今日のパターン認識クラスでは、私の教授がPCA、固有ベクトル、固有値について話しました。 私はそれの数学を理解しました。固有値などを見つけるように求められたら、機械のように正しく行います。しかし、私はそれを理解しませんでした。目的がわからなかった。私はそれを感じませんでした。 私は次の引用を強く信じています: あなたはそれをあなたの祖母に説明できない限り、あなたは本当に何かを理解していません。 - アルバート・アインシュタイン まあ、私はこれらの概念を素人やおばあちゃんに説明することはできません。 なぜPCA、固有ベクトル、固有値なのか?これらの概念の必要性は何ですか? これらを素人にどのように説明しますか?


10
「尤度」と「確率」の違いは何ですか?
ウィキペディアのページには、可能性と確率が明確な概念であると主張しています。 非技術用語では、「可能性」は通常「確率」の同義語ですが、統計的な使用法では、明確な区別があります。観察された結果が与えられたパラメータ値のセットの尤度。 誰かがこれが何を意味するのか、より現実的な説明を与えることができますか?さらに、「確率」と「可能性」がどのように一致しないかを示す例もあります。

11
ベータ配布の背後にある直感とは何ですか?
免責事項:私は統計学者ではなく、ソフトウェアエンジニアです。統計に関する私の知識のほとんどは独学から得たものなので、ここでは他の人にとってはささいな概念の理解にまだ多くのギャップがあります。したがって、回答に具体性の低い用語とより多くの説明が含まれていれば、非常に感謝します。おばあちゃんと話していると想像してください:) 私が把握しようとしている自然のベータ分布をどのようにそれぞれの場合に、それを解釈することはのために使用すべきかと- 。たとえば、正規分布について話している場合、電車の到着時間として説明することができます。最も頻繁にちょうど間に合うように到着し、少し少ない頻度で1分早くまたは1分遅れて、非常にまれに差で到着することはありません平均から20分。均一配布は、特に、宝くじの各チケットのチャンスを説明します。二項分布は、コインフリップなどで説明できます。しかし、ベータ分布のそのような直感的な説明はありますか? たとえば、およびとしましょう。この場合のベータ分布は、次のようになります(Rで生成):α=.99α=.99\alpha=.99β=.5β=.5\beta=.5B(α,β)B(α,β)B(\alpha, \beta) しかし、実際にはどういう意味ですか?Y軸は明らかに確率密度ですが、X軸には何がありますか? この例または他の例を使用して、説明をいただければ幸いです。

11
テストセットと検証セットの違いは何ですか?
Matlabでニューラルネットワークツールボックスを使用すると、このことがわかりにくくなりました。 生データセットを3つの部分に分割しました。 トレーニングセット 検証セット テストセット 多くのトレーニングまたは学習アルゴリズムでは、データは多くの場合、トレーニングセットとテストセットの2つの部分に分かれています。 私の質問は: 検証セットとテストセットの違いは何ですか? 検証セットは本当にニューラルネットワークに固有ですか?または、オプションです。 さらに進むと、機械学習のコンテキストでの検証とテストに違いはありますか?

20
二つの文化:統計と機械学習?
昨年、私は「統計対機械学習、戦い!」というタイトルのブレンダン・オコナーのブログ記事を読みました。2つのフィールドの違いの一部について説明しました。 アンドリュー・ゲルマンはこれに好意的に反応しました: サイモン・ブロンバーグ: Rの福袋から:挑発的に言い換えると、「機械学習は統計からモデルと仮定のチェックを差し引いたものです」。-ブライアンD.リプリー(機械学習と統計の違いについて)useR!2004年、ウィーン(2004年5月):-)季節のご挨拶! アンドリュー・ゲルマン: その場合、モデルと仮定のチェックをより頻繁に取り除く必要があります。そうすれば、機械学習の人々が解決できる問題のいくつかを解決できるかもしれませんが、できません! ありました:「二つの文化の統計モデリング」紙統計学者は、データモデリングに過度に依存し、その機械学習技術が代わりに頼ることで進展していると主張し、2001年にレオ・ブレイマンによって予測精度のモデルは。 これらの批判に応えて、統計分野は過去10年間で変化しましたか?か二つの文化がまだ存在や統計は、ニューラルネットワークやサポートベクターマシンなどの機械学習技術を包含するように成長していますか?

22
なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?
標準偏差の定義で、平均(E)を取得し、最後に平方根を取り戻すために、平均との差を2乗する必要があるのはなぜですか?代わりに、単に差の絶対値を取得し、それらの期待値(平均)を取得することはできませんか?また、データの変動も表示されませんか?数値は二乗法とは異なります(絶対値法は小さくなります)が、データの広がりを示す必要があります。この正方形のアプローチを標準として採用している理由は誰にもわかりますか? 標準偏差の定義: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. 代わりに絶対値を取得し、それでも適切な測定値を取得することはできませんか? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]

5
K-meansの欠点を理解する方法
K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計(SSE)を最小化するこのアルゴリズムを適用します。エラー。 したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う: k-meansは、各属性(変数)の分布の分散が球形であると仮定します。 すべての変数の分散は同じです。 すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。 これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。 この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。

25
統計ワークベンチとしてのPython
多くの人々が、Excelや別のスプレッドシート、SPSS、Stata、Rなどのメインツールを統計のニーズに使用しています。非常に特別なニーズのために特定のパッケージを使用する場合がありますが、単純なスプレッドシートまたは一般的な統計パッケージまたは統計プログラミング環境で多くのことができます。 私は常にプログラミング言語としてPythonが好きで、単純なニーズのために、必要なものを計算する短いプログラムを書くのは簡単です。Matplotlibでプロットできます。 RからPythonに完全に切り替えた人はいますか?R(または他の統計パッケージ)には統計に固有の多くの機能があり、実行したい統計について考えることができるデータ構造があり、データの内部表現についてはあまりありません。Python(またはその他の動的言語)には、馴染みのある高レベル言語でプログラミングできるという利点があります。また、データが存在する、またはそこから測定を行うことができる実際のシステムとプログラムでやり取りすることができます。しかし、単純な記述統計からより複雑な多変量法まで、「統計用語」で物事を表現できるPythonパッケージは見つかりませんでした。 Pythonを「統計ワークベンチ」として使用して、R、SPSSなどを置き換える場合、何を推奨できますか? あなたの経験に基づいて、私は何を獲得し、失いますか?
355 r  spss  stata  python 

3
SVDとPCAの関係。SVDを使用してPCAを実行する方法
主成分分析(PCA)は通常、共分散行列の固有分解によって説明されます。ただし、データ行列特異値分解(SVD)を介して実行することもできます。どのように機能しますか?これら2つのアプローチの関係は何ですか?SVDとPCAの関係は何ですか?XX\mathbf X または、言い換えると、データ行列のSVDを使用して次元削減を実行する方法ですか?

30
あなたの好きな「データ分析」漫画は何ですか?
これは私のお気に入りの1つです。 回答ごとに1つのエントリ。(これはStack Overflowの質問の流れです。あなたの好きな「プログラマー」漫画は何ですか?) PSサイトの許可なしに漫画をホットリンクしないでください。
343 humor 


11
ブートストラップが機能する理由を素人に説明する
最近、ブートストラップを使用して、プロジェクトの信頼区間を推定しました。統計についてあまり知らない人が最近、ブートストラップが機能する理由、つまり、同じサンプルを何度もリサンプリングすると良い結果が得られる理由を説明するように頼まれました。使い方を理解するのに多くの時間を費やしましたが、ブートストラップが機能する理由を本当に理解していないことに気付きました。 具体的には、サンプルからリサンプリングしている場合、サンプルだけでなく母集団について何かを学んでいるというのはどうですか?そこには、直観に反する飛躍があるようです。 ここで、この質問に対するいくつかの答えを見つけました。特にこれ。私は統計の「消費者」であり、統計学者ではありません。私は統計よりも統計についてあまり知らない人々と仕事をしています。だから、誰かが、最小限の定理などへの言及で、ブートストラップの背後にある基本的な理由を説明できますか?つまり、隣人に説明しなければならないとしたら、何と言いますか?

18
説明変数と応答変数が回帰前に個別にソートされるとどうなりますか?
ポイントのデータセットとします。線形回帰を実行したいが、最初に値と値を互いに独立してソートし、データセット形成するn(Xi,Yi)(Xi,Yi)(X_i,Y_i)nnnXiXiX_iYiYiY_i(Xi,Yj)(Xi,Yj)(X_i,Y_j)。新しいデータセットに回帰の意味のある解釈はありますか?これには名前がありますか? これはばかげた質問だと思うので、謝罪します。統計の正式な訓練を受けていません。私の考えでは、これはデータを完全に破壊し、回帰は無意味です。しかし、私のマネージャーは、彼がこれを行うと、「ほとんどの場合、より良い回帰」を得ると言います(ここで「より良い」とは、より予測可能という意味です)。私は彼が自分を欺いていると感じています。 編集:あなたの素敵で忍耐強い例のすべてに感謝します。彼に@ RUser4512と@gungの例を示しましたが、彼は頑固なままです。彼はイライラし、私は疲れ果てています。落ち込んでいるように感じます。すぐに他の仕事を探し始めるでしょう。


Licensed under cc by-sa 3.0 with attribution required.