統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


2
Kolmogorov-Smirnov検定のp値を解釈する方法(python)?
同じディストリビューションから取得された場合、テストする2つのサンプル(Pythonを使用)があります。そのためには、scipy.statsの統計関数ks_2sampを使用します。2つの値が返され、それらを解釈する方法に問題があります。助けてください!
30 python 

7
統計の枝は何ですか?
数学には、代数、分析、トポロジーなどの分岐があります。機械学習には、教師あり、教師なし、強化学習があります。これらの各ブランチ内には、メソッドをさらに分割するより細かいブランチがあります。 統計との類似点を描くことができません。統計(およびサブブランチ)の主要なブランチは何ですか?完全なパーティションはおそらく不可能ですが、大きな空白のマップよりも優れています。 視覚的な例:

3
誕生日のパラドックスを2人以上に拡大する
伝統的な誕生日のパラドックスでは、質問は「nnn人のグループの2人以上が誕生日を共有する可能性はどれくらいか」です。私はこれの延長である問題で立ち往生しています。 2人が誕生日を共有する確率を知るのではなく、xxx人以上の人が誕生日を共有する確率を知るために質問を拡張する必要があります。ではx=2x=2x=2、あなたには二人が誕生日を共有していないとのことを引く確率を計算することにより、これを行うことができます111が、私はより多くの数にこのロジックを拡張することができるとは思わないxxx。 これをさらに複雑にするために、nnn(数百万)およびxxx(数千)の非常に大きな数に対して機能するソリューションも必要です。

3
XとYが無相関の場合、X ^ 2とYも無相関ですか?
2つの確率変数とが無相関の場合、とが無相関であることもわかりますか?私の仮説はイエスです。Y X 2 YXXXYYYX2X2X^2YYY E [ X Y ] = E [ X ] E [ Y ]X,YX,YX, Y無相関は、またはE[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[ XY] = ∫x yfバツ(x )fY(y)dx dy= ∫x fバツ(x )dX ∫yfY(y)dy= E[ X] E[ Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] それは次のことも意味しますか? E[ X2Y] = ∫バツ2yfバツ(x )fY(y)dx dy= ∫バツ2fバツ(x )dX ∫yfY(y)dy= E[ …

4
トレーニングデータセットのクラスのバランスをとるべきなのはいつですか?
トレーニングデータの不均衡なクラスが問題につながる可能性があることを学んだオンラインコースがありました。これは、不均衡が多すぎる場合に良い結果が得られるため、分類アルゴリズムが多数決ルールに従うためです。割り当てでは、多数派クラスのアンダーサンプリングによりデータのバランスを取る必要がありました。 ただし、このブログでは、バランスの取れたデータはさらに悪いと誰かが主張しています。 https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ それでどちらですか?データのバランスを取るべきかどうか クラスの不均衡な割合に順応できる人もいるかもしれないので、使用されるアルゴリズムに依存しますか?その場合、不均衡なデータで信頼できるのはどれですか?


5
統計と機械学習の2つのグループを区別する:仮説検定対分類対クラスタリング
AとBというラベルの付いた2つのデータグループ(それぞれ200個のサンプルと1つの機能を含むなど)があり、それらが異なるかどうかを知りたいとします。私はできた: a)統計的検定(t検定など)を実行して、統計的に異なるかどうかを確認します。 b)教師付き機械学習を使用します(サポートベクトル分類子またはランダムフォレスト分類子など)。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c)教師なしアルゴリズム(K-Meansなど)を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。 私の質問は: これら3つの異なる方法はどのように重複/排他的ですか? b)とc)は科学的な議論に役立ちますか? 方法b)とc)のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか? データに1つの機能ではなく複数の機能がある場合、何が変わりますか? サンプル数が異なる場合、たとえば100対300の場合はどうなりますか?

7
時系列分析のポイントは何ですか?
時系列分析のポイントは何ですか? 回帰や機械学習など、明らかなユースケースを持つ統計方法は他にもたくさんあります。回帰は2つの変数間の関係に関する情報を提供しますが、機械学習は予測に最適です。 しかしその間、私は時系列分析が何のために良いかわかりません。確かに、ARIMAモデルを当てはめて予測に使用できますが、その予測の信頼区間が大きくなるとしたら何が良いでしょうか?世界史上最もデータ主導型の業界であるにもかかわらず、誰も株式市場を予測できない理由があります。 同様に、プロセスをさらに理解するためにどのように使用しますか?確かに、ACFをプロットして、「あぁ!依存関係があります!」と言うことができますが、その後はどうでしょうか。ポイントは何ですか?もちろん、依存関係があります。そのため、そもそも時系列分析を行っています。あなたはすでに依存があることを知っていました。しかし、あなたは何のためにそれを使用するつもりですか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

5
なぜ正規分布に従う非常に多くの自然現象があるのか​​についての説明はありますか?
これは魅力的なトピックだと思いますが、完全には理解していません。非常に多くの自然現象が正規分布を持つように物理学の法則はどのようになっていますか?それらが均一に分布していると、より直感的に見えるでしょう。 これを理解するのは私にとって非常に難しく、いくつかの情報が欠けていると感じています。誰かが良い説明で私を助けたり、本/ビデオ/記事にリンクできますか?

4
ジャーナルScienceはForking Pathes Analysisの庭を支持していますか?
適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析(EDA)の場合、これは一般に良いアイデアです(データに予期しないパターンを探すことが多い)が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています(すべての場合を除く)手順が明確に定義され、高度に適切に計画されています)。 そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。 次のScienceの記事は、そのような方法を見つけたと主張しています(私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い):Dwork et al、2015、The reusable holdout:Preserving Validity in Adaptive Data Analysis。 個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を(まったく)理解できません。 私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます(トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります)ホールドアウトデータの計算された統計から)。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。 著者が提案していることを間違えていますか?私が見落としている微妙な効果はありますか?それとも、科学 はこれまで最悪の統計的実践を支持していたのでしょうか?


3
最小/最大値のみがわかっているデータの統計的方法
正確な値が不明なデータを扱う統計のブランチはありますが、各個人について、値の上限または下限を知っていますか? 私の問題の主な原因は、統計用語で表現するのに苦労しているという事実にあると思われますが、例を挙げて説明するとわかりやすくなります。 ある時点でAのメンバーがBに「遷移」できるように、2つの連結された集団AAAとBBBがあるとしますAAABBBが、その逆は不可能です。遷移のタイミングは可変ですが、ランダムではありません。たとえば、AAAは「子孫のない個人」であり、BBB「少なくとも1人の子孫を持つ個人」です。この進行が起こる年齢に興味がありますが、断面データしかありません。任意の個人について、それらがAAAまたはに属しているかどうかを確認できますBBB。これらの個人の年齢も知っています。母集団Aの各個人についてAAA、移行時の年齢が現在の年齢よりも大きくなることを知っています。同様に、メンバーのBBB場合、移行時の年齢が現在の年齢よりも低いことを知っています。しかし、私は正確な値を知りません。 移行の時代と比較したい他の要因があるとしましょう。たとえば、私は個人の亜種や体の大きさが最初の子孫の年齢に影響するかどうかを知りたいです。私は間違いなくそれらの質問に役立ついくつかの有用な情報を持っています。平均して、の個人のうちAAA、高齢の個人は後の移行を持っています。しかし、特に若い個人にとっては、情報は不完全です。また、母集団についても同様ですBBB。 この種のデータを処理する確立された方法はありますか?適切な場所から始めるために、このような分析を実行するための完全な方法、必ずしもいくつかの検索用語または有用なリソースが必要なわけではありません! 警告:AAAからへの移行BBBは瞬間的であるという単純な仮定を立てています。また、ほとんどの人は、十分な長さの生活をしていると仮定して、ある時点でBBBに進むと想定しています。そして、縦断的なデータは非常に役立つことを理解していますが、この場合は利用できないと想定しています。 私が言ったように、これが重複している場合はおologiesび申し上げますが、私の問題の一部は、何を検索すべきかわからないことです。同じ理由で、必要に応じて他のタグを追加してください。 サンプルデータセット:Sspは、2つの亜種またはYのいずれかを示します。子孫は、子孫なし(A)または少なくとも1人の子孫(B)を示しますXXXYYYAAABBB age ssp offsp 21 Y A 20 Y B 26 X B 33 X B 33 X A 24 X B 34 Y B 22 Y B 10 Y B 20 Y A 44 X B 18 Y A 11 Y B …

3
すべてが「統計的に有意ではない」研究のメタ分析は、「有意な」結論に導くことができますか?
メタ分析には多数の研究が含まれており、そのすべてで0.05を超えるP値が報告されています。全体的なメタ分析で0.05未満のP値を報告することは可能ですか?どんな状況で? (答えはイエスだと確信していますが、参照または説明が欲しいです。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.