統計とビッグデータ theory

2

主に理論的な質問。最初の4モーメントが正規分布と等しい非正規分布の例はありますか？それらは理論的に存在するのでしょうか？

19 normal-distribution skewness moments theory kurtosis

3

私はこのスレッドを読みましたが、それは次のように言えるように見えます：統計=誘導？確率=控除？しかし、私が見逃している比較について、さらに詳細があるのではないかと思っています。たとえば、統計は帰納法と同等ですか、それとも特定のケースですか？確率は演mathematicalのサブケースであるように見えます（数学的思考のサブケースであるため）。私はこれが難しい質問であることを知っていますが、ある意味でこれが私が尋ねている理由です-これらの用語を正確に比較する方法を確認したいので。

17 probability theory

4

ベイジアン統計は、事前分布の欠如をどのように処理しますか？

この質問は、私が最近行った2つのやり取りからインスピレーションを受けました。1つはCVで、もう1つはEconomics.seでのやり取りです。そこに、私は答え掲示していた有名な「封筒パラドックス」（ないとして、あなたを気にする「正しい答え」が、状況の構造に関する特定の仮定から流れる答えとして）。しばらくして、ユーザーが重要なコメントを投稿し、私は彼の主張を理解しようと会話を始めました。彼がベイズの方法を考えていたことは明らかだった、と事前確率の話を保持-そしてそれは私に夜が明けた、と私は私の自己に言った： "待っ分、任意の前について何か言った？ように私が策定しています問題、ここには事前条件はありません。彼らは写真を入力しないだけで、必要はありません。」最近、CVで統計的独立性の意味についてこの答えを見ました。著者に彼の文章をコメントしました「...イベントが統計的に独立している場合、（定義により）一方を観察することから他方を知ることはできません。」露骨に間違っていた。コメント交換で、彼は（彼の言葉）の問題に戻り続けました「「学習」とは、別のものの観察に基づいて物事に関する私たちの信念を変えることを意味するのではないでしょうか？そうだとすれば、独立は（定義的に）これを排除しませんか？繰り返しになりますが、彼がベイジアンの考え方をしていること、そして私たちがいくつかの信念（つまり、事前）から始めることを自明であると考えたことは明らかでした。しかし、最初の信念はどのように作成されますか？科学は現実に適合しなければならないので、私は関係する人間に事前がない状況が存在することに注意します（私は、事前に何もせずに状況に入ります-私は事前があると主張しないでくださいが、私は気づかないで、ここで偽の精神分析をspareしましょう）。たまたま「情報価値のない事前確率」という言葉を聞いたことがあるので、質問を2つの部分に分けます。ここで、ベイジアン理論に精通しているユーザーは、私が尋ねようとしていることを正確に知っています。 Q1：情報に基づいていない事前情報を取得するのと同等の事前の（厳密な理論的意味での）欠如はありますか？ Q1の答えが「はい」（詳細をご記入ください）の場合、ベイズのアプローチは普遍的かつ最初から適用可能であることを意味します。その場所は、当面のケースにとって情報価値のない事前情報です。しかし、Q1の答えが「いいえ」の場合、Q2は次のようになります。 Q2：Q1の答えが「いいえ」の場合、事前分布がない場合、ベイジアンアプローチは最初から適用できず、非ベイジアン方法で事前に事前分布を作成する必要があります。後でベイジアンアプローチを適用できますか？

16 bayesian mathematical-statistics prior theory philosophical

1

どの因果関係の理論を知っておくべきですか？

応用統計学者/計量経済学者として、因果関係に対するどの理論的アプローチを知るべきですか？私は知っています（ほんの少し） Neyman-Rubin因果モデル（およびRoy、Haavelmoなど）因果関係に関するパールの研究グレンジャー因果関係（ただし、治療志向性は低い）どのコンセプトを見逃しているか、または知っておくべきですか？関連：機械学習の因果関係の基礎となる理論はどれですか？私は、これらの興味深い質問と回答（読んだことが1、2、3）が、私は別の質問だと思います。また、たとえば、「因果関係」が統計学習の要素で言及されていないことに驚いた。

16 machine-learning causality theory treatment-effect

2

ニューラルネットワークの複雑さを測定するためのVC次元の代替手段は何ですか？

ニューラルネットワークの複雑さを測定するいくつかの基本的な方法に出会いました。素朴で非公式：ニューロン、隠れニューロン、層、または隠れ層の数を数える VC次元（Eduardo D. Sontag [1998]「ニューラルネットワークのVC次元」[ pdf ]）との等価性によるTC0dTCd0TC^0_d粗化および漸近計算の複雑さの尺度。他の選択肢はありますか？推奨されます：複雑さのメトリックを使用して、同じスケールで異なるパラダイムからのニューラルネットワークを測定できる場合（バックプロップ、ダイナミクスニューラルネット、カスケード相関など）。たとえば、ネットワーク上のさまざまなタイプ（またはニューラルネットワーク以外のもの）でVC次元を使用できますが、ニューロンの数は、活性化関数、信号（基本和とスパイク）、およびその他の非常に特定のモデル間でのみ役立ちますネットワークのプロパティは同じです。ネットワークで学習可能な機能の複雑さの標準的な尺度にうまく対応している場合特定のネットワークでメトリックを簡単に計算できる場合（ただし、最後のネットワークは必須ではありません。）ノートこの質問は、CogSci.SEに関するより一般的な質問に基づいています。

16 neural-networks theory vc-dimension pac-learning

5

自習用の確率論書

確率分布関数や累積分布関数などの確率理論の重要な概念を説明する良い本はありますか？ジョン・ライスによる「数学統計とデータ分析」のような単純な順列概念から始まり、突然（第2章で）実分析、多重積分、表面積分の知識を想定して飛躍し、CDFとPDFとそれらを3次元の図で示します。1つは、すべてがどのように接続されているかについて頭をひっかきます。私は自習用の本を探していますが、「実用的な人のための微積分」と同じカテゴリの本は大いに役立ちます。

16 probability self-study distributions references theory

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

無関心の原理は、ボレル・コルモゴロフのパラドックスに適用されますか？

バートランドのパラドックスに対するジェインズのソリューションを検討する無関心の原理を使用。同様の議論がボレル-コルモゴロフのパラドックスに当てはまらないのはなぜですか？問題は球体の方向を指定しないため、球体を回転しても、選択した制限プロセスによって到達する結果の分布に影響を与えないという主張に問題はありますか？

15 theory paradox

1

GAM vs LOESS vsスプライン

コンテキスト：パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。次の認識は正しいですか？レスは、特定の値で応答を推定します。スプラインは、データ（一般化された加法モデルを構成する）に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか？

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

3

人工ニューラルネットワークの背後にある理論的結果

Courseraの機械学習コースで人工神経回路網を取り上げたばかりですが、その背後にある理論をもっと知りたいです。私は彼らが生物学を模倣するという動機がやや不満足だと思う。表面上、各レベルで共変量をそれらの線形結合に置き換えているように見えます。繰り返し行うことにより、非線形モデルのフィッティングが可能になります。これは疑問を投げかけます：なぜニューラルネットワークが非線形モデルを単に適合させるよりも好まれるのか。より一般的には、人工神経回路網がベイジアンの推論フレームワークにどのように適合するかを知りたいと思います。これは、ET Jaynesの本「Probability Theory：The Logic Of Science」で詳しく説明されています。または、簡単に言えば、人工ニューラルネットワークが機能するときに機能するのはなぜですか？そして、もちろん、彼らが成功した予測をするという事実は、彼らが前述のフレームワークに従うことを意味します。

13 machine-learning neural-networks theory

3

研究者1は1000回の回帰を実行し、研究者2は1回のみを実行しますが、どちらも同じ結果になります。異なる推論を行う必要がありますか？

研究者がデータセットを調査しており、1000の異なる回帰を実行し、それらの間に1つの興味深い関係を見つけたとします。ここで、同じデータを持つ別の研究者がたった1つの回帰を実行し、他の研究者が1000の回帰を見つけて見つけたものと同じであることがわかります。研究者2は研究者1を知りません。研究者1は研究者2とは異なる推論をすべきですか？どうして？たとえば、研究者1は多重比較補正を実行すべきですが、研究者2は実行すべきではありませんか？研究者2が最初に単一の回帰を示した場合、どのような推測をしますか？その後、研究者1が結果を示した場合、推論を変更する必要がありますか？もしそうなら、なぜそれが重要なのでしょうか？ PS 1：仮想の研究者について話すと問題が抽象化されるので、考えてみてください。利用可能な最良の方法を使用して、論文の回帰を1回だけ実行したと想像してください。次に、別の研究者が、あなたが実行したまったく同じ回帰が見つかるまで、同じデータで1000の異なる回帰を調査しました。二人は異なる推論をする必要がありますか？両方のケースで証拠は同じですか？他の研究者の結果を知っている場合、推論を変更する必要がありますか？公衆は2つの研究の証拠をどのように評価すべきですか？ PS 2：可能であれば、具体的で、数学的/理論的な正当化を提供するようにしてください！

12 bayesian multiple-regression multiple-comparisons inference theory

1

メソッド選択に適したフレームワークは何ですか？

私はメソッド選択の理論的フレームワーク（注：モデル選択ではない）を調査しており、体系的で数学的に動機付けられた研究はほとんど見つかりませんでした。「メソッドの選択」とは、問題または問題のタイプに関して適切な（またはより良い、最適な）メソッドを区別するためのフレームワークを意味します。私が見つけたのは、断片的である場合でも、特定の方法とその調整（つまり、ベイズ法での事前選択）、およびバイアス選択による方法選択（例：帰納的ポリシー：バイアス選択のプラグマティクス）にかなりの労力を費やしています。機械学習の開発のこの初期段階では非現実的かもしれませんが、許容可能な変換とテストをスケールタイプで処方する際に測定理論が行うようなものを見つけたいと思っていました。助言がありますか？

11 machine-learning methodology theory

3

データサイエンティストのインタビューの質問：低線形回帰とあなたは何をしますか

価格弾力性モデルのが非常に低い（5〜10％）と仮定して面接担当者から尋ねられた仕事の面接質問に直面しました。この質問をどのように解決しますか？R2R2R^2 回帰診断を行って何がうまくいかなかったか、または非線形メソッドを適用する必要があるかどうか以外に、私は何も考えられませんでした。どういうわけかインタビュアーは私の答えに満足していなかったと思います。このようなシナリオで、モデルを適合させ、が低いにもかかわらず、それを生産レベルの予測に使用するために何か他のことはありますか？R2R2R^2 編集：後の段階で、インタビュー中に問題をモデル化するためのデータが提供され、時間差変数、競合他社の価格の影響、季節性ダミーを追加して、それが違いを生むかどうかを確認しました。は17.6％になり、ホールドアウトサンプルでのパフォーマンスは悪かった。個人的には、このようなモデルをライブ環境で予測に使用すると、誤った結果が得られ、クライアントが失われるため、非倫理的であると考えます（このようなモデルの推奨価格を会社の収益に使用することを想像してください）。誰もが知る必要があるあまりにも明白であるようなシナリオで行われる他のことはありますか？「銀の弾丸」と言いたくて気づかない何かR2R2R^2 また、外生変数を追加すると、がさらに2％向上し、このシナリオで何ができるかを想像してみてください。モデリングプロジェクトを破棄する必要がありますか、それとも、ホールドアウトサンプルのパフォーマンスによって示される生産レベルの品質のモデルを開発する希望はまだありますか？R2R2R^2 EDIT2：私は投稿している。この中で質問をeconomics.stackexchange.comの経済学の観点からこの問題を理解するためのフォーラム

10 regression self-study theory

1

95％信頼区間の繰り返し実験の説明のシミュレーション研究の問題-どこが間違っているのですか？

95％信頼区間の繰り返し実験解釈をシミュレートするRスクリプトを記述しようとしています。これは、割合の真の母集団値がサンプルの95％CIに含まれている時間の割合を過大評価していることがわかりました。大きな違いはありません-約96％対95％ですが、それでも私は興味を持っていました。私の関数は、samp_n確率pop_pでベルヌーイ分布からサンプルを取得し、prop.test()連続性補正を使用して、またはより正確に95％信頼区間を計算しbinom.test()ます。真の人口比率pop_pが95％CIに含まれている場合、1を返します。私は2つの関数を作成しました。1つはを使用する関数、もう1つはを使用しprop.test()、binom.test()両方で同様の結果を得たものです。 in_conf_int_normal <- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the CI contain the pop proportion ## returns 0 otherwise samp <- rbinom(samp_n, 1, pop_p) pt_result <- prop.test(length(which(samp == 1)), samp_n) lb <- pt_result$conf.int[1] ub …

9 r confidence-interval binomial theory

4

重要ではないため、研究からデータを除外できますか？

sciencemag.orgの記事を読んでいるときにこの文章に遭遇しました。最後に、残りのデータが統計的に有意であると見なされなかったため、12か国のわずか7600人の研究者からの回答が含まれました。これは研究を行うための適切な方法ですか？統計的に有意であると見なされなかったために結果を除外するには？

9 statistical-significance sampling outliers theory

タグ付けされた質問 「theory」

タグ付けされた質問「theory」