統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

16
どのような誤った統計用語を修正する価値がありますか?
統計はどこにでもあります。ただし、統計用語の一般的な使用法はしばしば不明確です。 確率とオッズという用語は、明確に定義されたさまざまな数式にもかかわらず、一般英語では交換可能に使用されます。 尤度という用語を確率と区別しないと、陽性マンモグラフィが与えられたときに乳がんの確率を定量化しようとする医師を日常的に混乱させます。これはできません。私の娘をテストしてください。彼女は医学を勉強しています。」 同様に普及しているのは、関連付けではなく相関の使用です。または、因果関係を意味する相関。 アルゴアの有名なドキュメンタリー「不便な真実」では、スライドが氷のコアと温度の相関関係を示しており、議論から因果関係を証明するためのより技術的な作業を残しています。CO2CO2\small \text{CO}_2 質問:数学的な厳密さなしで使用した場合、どの統計用語が解釈の問題を引き起こしますか。したがって、修正する価値がありますか?
103 terminology 

19
統計レフリーを困らせる方法は?
私は最近、論文で統計をレビューすることに関する一般的な原則に関する質問をしました。私が今お聞きしたいのは、論文をレビューするときに特にイライラさせるもの、つまり統計的レフリーを本当に悩ませる最善の方法です! 回答ごとに1つの例をお願いします。


2
統計的に有意な切片項を削除すると、線形モデルのが増加します
単一の説明変数を持つ単純な線形モデルでは、 αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 切片項を削除すると、近似が大幅に改善されることがわかりました(値は0.3から0.9になります)。ただし、切片の項は統計的に有意であると思われます。R2R2R^2 インターセプトあり: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

3
バッチ勾配降下と確率的勾配降下
トレーニングセットがます。また、トレーニングセットで何らかのタイプの教師あり学習アルゴリズムを実行するとします。仮説はます。と間の「距離」を最小化するパラメーターを見つける必要があります。ましょう(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} 次に、を最小化するを見つけます。勾配降下では、各パラメーターを初期化し、次の更新を実行します。θθ\thetaJ(θ)J(θ)J(\theta)θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta) バッチ勾配降下と確率的勾配降下の主な違いは何ですか? 両方とも上記の更新ルールを使用します。しかし、一方が他方より優れていますか?

8
ASAは
すでにp値としてタグ付けされた複数のスレッドがあり、それらについての多くの誤解が明らかになっています。10か月前、p値を「禁止」した心理学雑誌pppについてのスレッドがありましたが、現在は米国統計協会(2016)の分析では「値の計算で終わるべきではない」と言われています。ppp 米国統計協会(ASA)は、値の適切な使用と解釈の根底にあるいくつかの広く合意された原則を明確にする正式な声明から科学界が利益を得ることができると考えています。ppp 委員会は、値の可能な代替手段または補足として他のアプローチをリストします。ppp 値の一般的な誤用および誤解を考慮して 、一部の統計学者はp値を他のアプローチで補完するか、さらには置き換えることを好み ます。これらには、信頼性、信頼性、予測間隔など、テストよりも推定を重視する方法が含まれます。ベイジアン法; 尤度比やベイズ因子などの証拠の代替手段。意思決定理論モデリングや誤発見率などの他のアプローチ。これらの測定とアプローチはすべて、さらなる仮定に依存していますが、効果のサイズ(および関連する不確実性)または仮説が正しいかどうかにより直接対処する場合があります。pppppp それでは、値後の現実を想像してみましょう。ASAは、p値の代わりに使用できるいくつかのメソッドをリストしていますが、なぜより良いのですか?すべての人生でp値を使用した研究者にとって、実際の代替物となるのはどれですか?私が質問のこの種のことを想像するだろう後に表示されたpので、多分のは、一歩先にそれらのことを試してみましょう、-values現実。すぐに適用できる合理的な代替手段は何ですか?このアプローチが主任研究者、編集者、または読者を説得するのはなぜですか?pppppppppppp このフォローアップブログエントリが示唆しているように、値はそのシンプルさにおいて無敵です。ppp p値には、保持する帰無仮説の下での統計の振る舞いの統計モデルのみが必要です。「良い」統計(p値の構築に使用される)を選択するために対立仮説のモデルが使用される場合でも、この代替モデルは、p値が有効であり、有用です(つまり、実際の効果を検出するためのパワーを提供しながら、希望するレベルでタイプIエラーを制御します)。対照的に、尤度比、効果サイズ推定、信頼区間、ベイジアン法などの他の(驚くほど有用な)統計的手法はすべて、テストされたヌルの下だけでなく、より広い範囲の状況を保持するための仮定モデルを必要とします。 それとも、それとも真実ではないのでしょうか? 私は知っていますが、これは広範ですが、主な質問は簡単です:代替として使用できる値に代わる最良の(そしてなぜ)実際の代替物は何ですか?ppp ASA(2016)。統計的有意性と値に関するASAステートメント。PPP アメリカの統計学者。(印刷中)



9
これは本当にp値がどのように機能するのですか?年間100万件の研究論文を純粋なランダム性に基づいて作成できますか?
私は統計学は非常に新しく、値を含む基本を理解することを学んでいます。しかし、今私の頭の中には大きな疑問符があり、私の理解が間違っていることを願っています。これが私の思考プロセスです。ppp 世界中のすべての研究は、「無限の猿の定理」の猿にやや似ていませんか?世界には23887の大学があると考えてください。各大学に1000人の学生がいる場合、それは毎年2300万人の学生です。 毎年、各生徒が仮説検定を使用して少なくとも1つの調査を行うとしましょう。α = 0.05α=0.05\alpha=0.05 それは、すべての研究サンプルがランダムな母集団から引き出されたとしても、それらの約5%が「帰無仮説を無効として拒否する」ことを意味しません。ワオ。それについて考えてください。これは、「重要な」結果のために年間約100万件の研究論文が発行されていることです。 これが機能する場合、これは怖いです。それは、私たちが当たり前と考える「科学的真実」の多くは、純粋なランダム性に基づいていることを意味します。 Rコードの単純なチャンクが私の理解をサポートしているようです: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] だから、成功する上でこの記事し -fishingは:私は減量を支援チョコレートを考えることに何百万人をだまさ。方法は次のとおりです。ppp これで本当にすべてですか?これは「科学」がどのように機能するはずなのか

25
自由に利用可能なデータサンプルの検索
私は、データセットを分析および解析して、サブグループの特性を知らずに母集団のサブグループを特定および分離する新しい方法に取り組んでいます。この方法は、人工データサンプル(つまり、母集団のサブセットを識別および分離するために特別に作成されたデータセット)で十分に機能しますが、ライブデータでテストしてみたいと思います。 私が探しているのは、自由に利用できる(つまり、非機密、非専有)データソースです。好ましくは、バイモーダルまたはマルチモーダル分布を含むもの、または明らかに従来の手段では簡単に分解できない複数のサブセットで構成されるものです。そのような情報はどこで入手できますか?

9
xを使用したyとyを使​​用したxの線形回帰の違いは何ですか?
xとyのピアソン相関係数は、pearson(x、y)とpearson(y、x)のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。 関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか(私は常にこれを最適なラインを要約すると考えています)?

1
条件付き推論ツリーと従来の決定ツリー
誰でも、従来の決定木アルゴリズム(R など)と比較した条件付き推論木(Rのパッケージctreeからparty)の主な違いを説明できますrpartか? CIツリーの違いは何ですか? 強みと弱み? 更新:私はホーソーンらによるコメントでチーが言及している論文を見てきました。私はそれを完全に追うことができませんでした-順列を使用して変数が選択される方法を説明できますか(例:影響関数とは)? ありがとう!


3
ユニットルートの直感的な説明
ユニットルートテストのコンテキストで、ユニットルートとは何かを直感的にどのように説明しますか? 私はこの質問で設立したように説明する方法で考えている。 ユニットルートの場合は、ユニットルートテストが時系列の定常性をテストするために使用されることを(少しだけですが)知っていますが、それだけです。 素人に、または非常に基本的な確率と統計学のコースを学んだ人にどのように説明しますか? 更新 ここで尋ねたことを最も反映しているので、私はwhuberの答えを受け入れました。しかし、私はここに来たすべての人に、パトリックとマイケルの答えも読むことをお勧めします。彼らはユニットルートを理解する上で自然な「次のステップ」だからです。数学を使用しますが、非常に直感的な方法です。

4
カーネルとは何ですか?
多くの機械学習分類子(サポートベクターマシンなど)では、カーネルを指定できます。カーネルとは何かを説明する直観的な方法は何でしょうか? 私が考えていた1つの側面は、線形カーネルと非線形カーネルの違いです。簡単に言えば、「線形決定関数」と「非線形決定関数」について言えます。しかし、カーネルに「決定関数」を呼び出すことが良いアイデアかどうかはわかりません。 提案?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.