統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
線形回帰の予測値の信頼区間の形状
線形回帰の予測値の信頼区間は、予測値の平均付近で狭くなり、予測値の最小値と最大値付近で太くなる傾向があることに気付きました。これは、次の4つの線形回帰のプロットで見ることができます。 これは、予測子のほとんどの値が予測子の平均値に集中しているためだと当初考えました。ただし、予測変数の多くの値が最小値の周りに集中している左下の線形回帰のように、予測変数の極値の近くに多くの値が集中していても、信頼区間の狭い中央が発生することに気付きました予測子。 線形回帰の予測値の信頼区間が中間で狭く、極端に太くなる傾向がある理由を説明できる人はいますか?




7
すべての相互作用の用語は、回帰モデルの個々の用語を必要としますか?
著者が5〜6個のロジット回帰モデルをAICと比較している原稿を実際にレビューしています。ただし、一部のモデルには、個々の共変量項を含まない相互作用項があります。これを行うのは理にかなっていますか? 例(ロジットモデルに固有ではない): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 & X2) 相互作用用語X1 * X2がある場合、X1 + X2も必要であるという印象を受けていました。したがって、モデル1と2は問題ありませんが、モデル3〜5には問題があります(AICが低い場合でも)。これは正しいです?それはルールですか、それともガイドラインですか?この背後にある理由を説明する良い参考資料はありますか?レビューで重要なことを誤解しないようにしたいだけです。 考えをありがとう、ダン


6
ニューラルネットワークの適切な初期重みとは何ですか?
聞いたところでは、ニューラルネットワークの初期重みを範囲から選択するのは良い考えだと思います。ここでは特定のニューロンへの入力の数。セットは正規化されていると想定されます-平均0、分散1(これが重要かどうかわからない)。d(− 1d√、1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd なぜこれが良い考えですか?

4
標準偏差を「合計」する方法は?
値の月間平均とその平均に対応する標準偏差があります。現在、月平均の合計として年平均を計算していますが、合計平均の標準偏差をどのように表すことができますか? たとえば、風力発電所からの出力を検討する場合: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 風力発電所は平均して10,358 MWhを生産していますが、この数値に対応する標準偏差はどのくらいですか?

10
外挿の何が問題になっていますか?
外挿が悪い考えであった理由についての学部生の聴聞会として統計コースに座っていたことを覚えています。さらに、これについてコメントするオンラインのさまざまな情報源があります。ここにもそれについての言及があります。 誰かが外挿が悪い考えである理由を理解するのを助けることができますか?もしそうなら、どのように予測手法が統計的に無効ではないのですか?

2
Rの多変量重回帰
2つの従属変数(DV)があり、それぞれのスコアは7つの独立変数(IV)のセットによって影響を受ける可能性があります。DVは連続的ですが、IVのセットは連続変数とバイナリコード変数の混合で構成されています。(以下のコードでは、連続変数は大文字で、バイナリ変数は小文字で記述されています。) この研究の目的は、これらのDVがIV変数によってどのように影響を受けるかを明らかにすることです。次の多変量重回帰(MMR)モデルを提案しました。 my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 結果を解釈するために、2つのステートメントを呼び出します。 summary(manova(my.model)) Manova(my.model) 両方の呼び出しからの出力は以下に貼り付けられ、大きく異なります。MMRの結果を適切に要約するために、2つのうちどちらを選択すべきかを誰かに説明してください。どんな提案も大歓迎です。 summary(manova(my.model))ステートメントを使用した出力: > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …


11
モデルが間違っているのに、なぜベイジアンである必要があるのですか?
編集:簡単な例を追加しました:平均の推論。また、信頼区間と一致しない信頼区間が悪い理由を少し明らかにしました。XiXiX_i かなり敬devなベイジアンの私は、ある種の信仰の危機の真っただ中にいます。 私の問題は次のとおりです。IIDデータを分析したいとします。私がやることは:XiXiX_i 最初に、条件付きモデルを提案します: p(X|θ)p(X|θ) p(X|\theta) 次に、上の前を選択し: P (θ )θθ\thetap(θ)p(θ) p(\theta) 最後に、ベイズの規則を適用し、事後を計算します:(または計算できない場合は近似)、についてのすべての質問に答えますθp(θ|X1…Xn)p(θ|X1…Xn)p(\theta | X_1 \dots X_n )θθ\theta これは賢明なアプローチです。データ真のモデルが条件付きの「内部」にある場合(値対応する場合)、統計的決定理論を呼び出して、メソッドが許容可能であると言うことができます(Robert詳細については「ベイジアン選択」、「統計のすべて」も関連する章で明確に説明しています)。θ 0をXiXiX_iθ0θ0\theta_0 しかし、誰もが知っているように、私のモデルが正しいと仮定することはかなり慢です。なぜ私が検討したモデルの箱の中に自然がきちんと収まるのでしょうか?これは、データの実際のモデルと仮定することははるかに現実的である異なりのすべての値に対して。これは通常、「誤って指定された」モデルと呼ばれます。p (X | θ )θptrue(X)ptrue(X)p_{true}(X)p(X|θ)p(X|θ)p(X|\theta)θθ\theta 私の問題は、このより現実的な誤って指定されたケースでは、単純に最尤推定量(MLE)を計算するのと比べて、ベイジアンであること(つまり、事後分布の計算)についての良い議論がないことです: θ^ML=argmaxθ[p(X1…Xn|θ)]θ^ML=arg⁡maxθ[p(X1…Xn|θ)] \hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ] 実際、Kleijn、vd Vaart(2012)によると、誤って指定された場合、事後分布は次のとおりです。 として、を中心とするディラック分布に収束しθ M Ln→∞n→∞n\rightarrow \infty θ^MLθ^ML\hat \theta_{ML} 事後の信頼できる区間が信頼区間に一致することを保証するために、正しい分散がありません(2つの値が偶然同じでない限り)。(信頼区間は明らかにベイジアンが過度に気にしないものですが、これは定性的には、事後分布が本質的に間違っていることを意味します。これは、信頼区間が正しいカバレッジを持たないことを意味します)θθ\theta したがって、追加のプロパティがない場合、計算プレミアム(一般にベイジアン推論はMLEよりも高価です)を支払います。 したがって、最後に、私の質問:モデルが誤って指定されている場合に、より単純なMLEの代替案に対してベイジアン推論を使用するための理論的または経験的な議論はありますか? (私の質問はしばしば不明瞭であることを知っているので、あなたが何かを理解しないならば、私に知らせてください:私はそれを言い換えようとします) 編集:簡単な例を考えてみましょう:ガウスモデルの下での平均を推測します(さらに単純化するために既知の分散を使用)。ガウス事前分布を考えます。事前平均、事前の逆分散でます。してみましょうの経験的な平均こと。最後に注意してください:。 …

1
単純なロジスティック回帰モデルは、MNISTで92%の分類精度をどのように実現しますか?
MNISTデータセット内のすべての画像は、同じスケールで中央に配置され、回転せずに表向きになっていますが、それらには大きな手書きのばらつきがあり、線形モデルがこのような高い分類精度をどのように実現するのか困惑しています。 私が視覚化できる限り、手書きの大きな変動を考えると、数字は784次元空間で線形に分離できないはずです。つまり、異なる数字を分離する少し複雑な(それほど複雑ではない)非線形境界があるはずです。 、正のクラスと負のクラスを線形分類器で分離できないというよく引用されたXORXORXOR例に似ています。マルチクラスロジスティック回帰が、完全に線形の特徴(多項式の特徴はない)でどのように高い精度を実現するのか、私には戸惑うようです。 例として、画像内の任意のピクセルが与えられた場合、数字222と333異なる手書きのバリエーションにより、そのピクセルを照らしたり、しなかったりすることができます。したがって、学習された重みのセットを使用して、各ピクセルは数字を222および333ように見せることができます。ピクセル値の組み合わせによってのみ、数字が222か333あるかを判断できます。これは、ほとんどの桁ペアに当てはまります。そのため、ロジスティック回帰は、ピクセル間の依存関係をまったく考慮せずに、盲目的にすべてのピクセル値に依存せずに決定を下し、そのような高い精度を達成できます。 どこか間違っているか、画像のばらつきを過大評価しているだけです。ただし、数字がどのように「ほぼ」直線的に分離できるかについての直感で誰かが私を助けることができれば素晴らしいことです。

1
40,000の神経科学論文は間違っているかもしれません
エコノミストでこの記事を見て、一見壊滅的な [1]「40,000件の公開された[fMRI]研究のようなもの」に疑問を投げかけました。彼らによると、エラーは「誤った統計的仮定」によるものです。私はこの論文を読んで、部分的に多重比較修正の問題があることを確認しましたが、私はfMRIの専門家ではなく、従うのが難しいと感じています。 著者が話している誤った仮定は何ですか?なぜこれらの仮定がなされているのですか?これらの仮定を立てる方法は何ですか? 封筒の計算の裏には、40,000 fMRIの論文が10億ドル以上の資金(学生の卒業生の給与、運営費など)があると書かれています。 [1] Eklund et al。、Cluster failure:fMRIによる空間範囲の推論が偽陽性率を増大させた理由、PNAS 2016

3
これはp値問題の解決策ですか?
2016年2月、米国統計協会は、統計的有意性とp値に関する公式声明を発表しました。それに関する私たちのスレッドは、これらの問題について広範囲に議論しています。しかし、今まで、広く認められた効果的な代替手段を提供する権限はありません。アメリカ統計学会(ASS)は、その応答、p値を発表しました:次は何ですか? 「p値はあまり良くありません。」 ASAは十分に機能しなかったと思います。p値の時代が終わったことを認める時です。統計学者はそれらを使用して大学生を困惑させ、科学者をだまし、編集者をだまして成功させましたが、世界はこの策略を見始めています。意思決定を制御するための統計学者によるこの20世紀初頭の試みを放棄する必要があります。実際に機能するものに戻る必要があります。 公式のASS提案は次のとおりです。 p値の代わりに、ASSはSTOP (SeaT-Of-Pantsプロシージャ)を提唱します。ロナルド・フィッシャーが来て物事を台無しにするまで、この昔からの方法とテストされた方法は、古代ギリシア人、ルネサンスの男性、およびすべての科学者によって使用されました。STOPは、シンプルで直接的な、データ駆動型で信頼できるものです。それを実行するために、権威のある人物(好みにより年上の男性)がデータをレビューし、彼らが彼の意見に同意するかどうかを決定します。彼が決定すると、結果は「重要」になります。それ以外の場合はそうではなく、すべてのことを忘れる必要があります。 原則 応答は、ASAの6つの原則のそれぞれに対応しています。 STOPは、データが指定された統計モデルとどれだけ互換性がないかを示すことができます。 このフレーズが気に入ったのは、STOPがyesまたはnoの質問に答えると言うのはとてもおしゃれな方法だからです。p値または他の統計的手順とは異なり、疑いの余地はありません。これは、「スティンキンの帰無仮説は必要ありません!」と言う人への完璧な反応です。とにかく*?!@とは何ですか?誰がそれがどうなっているかを理解することはできませんでした。」 STOPは、仮説が真である確率を測定しません。実際に、真かどうかを判断します。 誰もが確率に混乱しています。写真から確率をとることにより、STOPは長年の学部および大学院での研究の必要性を排除します。今では誰でも(十分に年をとっており、男性でも)統計分析を行うことができます。1回の統計講義を聴いたり、わかりにくい出力を吐き出す難解なソフトウェアを実行したりする苦痛や苦痛はありません。 科学的結論とビジネスまたは政策決定は、常識と実際の権威の数字に基づいて行うことができます。 とにかく、当局は常に重要な決定を下してきたので、それを認めて仲介人を排除しましょう。STOPを使用すると、統計学者は自分に最適なことを行うことができます。数値を使用して真実を難読化し、権力者の選好を聖別します。 適切な推論には、完全なレポートと透明性が必要です。 STOPは、これまでに発明された中で最も透過的で自明の統計手順です。データを見て決定します。データの意味がわからないという事実を隠すために人々が使用する、すべての混乱するz検定、t検定、カイ2乗検定、アルファベットスープ手順(ANOVA!GLM!MLE!)を排除します。 STOPは結果の重要性を測定します。 これは自明です。権限のある人がSTOPを使用する場合、結果は重要でなければなりません。 STOP自体は、モデルまたは仮説に関する証拠の適切な尺度を提供します。 私たちは権威に挑戦したくないでしょうか?研究者と意思決定者は、STOPが知る必要があるすべての情報を提供することを認識します。これらの理由により、データ分析はSTOPで終了する可能性があります。p値、機械学習、占星術などの代替アプローチの必要はありません。 その他のアプローチ 一部の統計学者は、いわゆる「ベイジアン」法を好みます。この方法では、18世紀の聖職者によって死後に公表された不明瞭な定理が、あらゆる問題を解決するために無意識に適用されます。最も有名な支持者は、これらの方法が「主観的」であることを自由に認めています。主観的方法を使用する場合、意思決定者の権威があり知識があるほど、結果は良くなります。これにより、STOPはすべてのBayesメソッドの論理的な制限として現れます。担当者にデータを見せて、彼の意見を尋ねるだけでいいのに、なぜこれらのひどい計算をし、コンピューターの時間を無駄にする努力をするのでしょうか?物語の終わり。 統計学者の神権に挑戦するために、最近別のコミュニティが生まれました。彼らは自分たちを「機械学習者」および「データ科学者」と呼んでいますが、彼らは本当に高い地位を探しているハッカーです。ASSの公式の立場は、人々が彼らを真剣に受けとめたいなら、これらの人たちが彼ら自身の専門組織を形成すべきだということです。 質問 これは、ASAがp値と帰無仮説検定で特定した問題に対する答えですか?(応答で暗黙的に主張されているように)ベイジアンとフリークエンティストのパラダイムを本当に結び付けることができますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.