統計とビッグデータ

4

一般化線形モデル（GLM）対線形モデル（LM）を使用する背後にある哲学を理解しようとしています。以下にサンプルデータセットを作成しました。 log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon この例には、yの大きさの関数としての誤差がないため、対数変換されたyの線形モデルが最適であると想定します。以下の例では、これは実際にそうです（私は思う）-ログ変換されたデータのLMのAICが最も低いからです。対数リンク関数を使用したガンマ分布GLMのAICは、より低い二乗和（SS）を持ちますが、自由度を追加するとAICがわずかに高くなります。ガウス分布のAICが非常に高いことに驚かされました（SSはモデルの中で最低ですが）。εε\varepsilonyyy GLMモデルにアプローチするタイミングについてアドバイスをもらいたいと思います。つまり、LMモデルの近似残差で、別の分布がより適切であることを確認する必要があるのでしょうか。また、適切なディストリビューションファミリを選択するには、どのように進める必要がありますか。あなたの助けに前もって感謝します。 [編集]：対数変換線形モデルのSSが対数リンク機能を備えたGLMモデルに匹敵するように、要約統計を調整しました。統計のグラフが表示されます。例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- "LM" assign(mod.name, lm(y …

55 r generalized-linear-model linear-model gamma-distribution link-function

3

lmerでのランダム効果の指定方法に関する質問

最近、単語が異なるコンテキストで表示されたときのERP（EEG）を測定することにより、新しい単語の意味が繰り返しの露出（練習：1日目から10日目）で獲得される方法を測定しました。また、コンテキストのプロパティも制御しました。たとえば、新しい単語の意味の発見に対する有用性（高対低）。特に練習の効果（日数）に興味があります。個々のERP記録はノイズが多いため、ERPコンポーネントの値は、特定の条件の試行を平均することによって取得されます。このlmer関数では、次の式を適用しました。 lmer(ERPindex ~ practice*context + (1|participants), data=base) そして lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) また、私は次のランダム効果と同等のものを文献で見ました。 lmer(ERPindex ~ practice*context + (practice|participants) + (practice|participants:context), data=base) フォームのランダム係数を使用して何が達成されparticipants:contextますか？行列代数の大まかな知識を持っている人に、線形混合モデルでランダムファクターが何をするか、そしてそれらをどのように選択するかを正確に理解させる良いソースはありますか？

55 r mixed-model lme4-nlme random-effects-model

9

高度な統計図書の推奨事項

このサイトには、入門統計と機械学習に関する本の推奨事項に関するいくつかのスレッドがありますが、優先順位の順に、最尤、一般化線形モデル、主成分分析、非線形モデルなど、高度な統計に関するテキストを探しています。AC Davisonによる統計モデルを試しましたが、率直に言って、2つの章の後にそれを書き留めなければなりませんでした。テキストはその範囲と数学的扱いにおいて百科事典ですが、実務家として、私は最初に直観を理解することによって主題にアプローチするのが好きで、それから数学的背景を掘り下げます。これらは、教育的価値のために私が傑出していると考えるいくつかのテキストです。私が言及したより高度な主題に相当するものを見つけたいと思います。 Statistics、D。Freedman、R。Pisani、R。Purves。予測：メソッドとアプリケーション、R。Hyndman et al。多重回帰とその先、TZキース現代の統計的手法の適用、Rand R. Wilcox Rのアプリケーションを使用した統計学習の概要-（PDFリリース版）、Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani 統計学習の要素：データマイニング、推論、および予測。-（PDFリリース版）、Hastie、Tibshirani、Friedman（2009）

55 generalized-linear-model pca maximum-likelihood references saddlepoint-approximation

3

パールの因果性理論に対する批判

2000年、Judea Pearlは因果関係を発表しました。この作品を取り巻く論争は何ですか？その主な批判は何ですか？

55 causality

3

デ・フィネッティの表現定理の何がそんなにクールなのですか？

Mark J. Schervishによる統計理論から（12ページ）： DeFinettiの表現定理1.49は、パラメトリックモデルの動機付けの中心ですが、実際の実装では使用されていません。定理はどのようにパラメトリックモデルの中心にありますか？

55 probability modeling mathematical-statistics parametric

6

Rのロジスティック回帰の代替

ロジスティック回帰と同じタスクを実行する多くのアルゴリズムが欲しいです。それは、説明変数（X）を使用してバイナリ応答（Y）に予測を与えることができるアルゴリズム/モデルです。アルゴリズムに名前を付けた後、Rでそれを実装する方法も示すことができれば嬉しいです。他のモデルで更新できるコードは次のとおりです。 set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

55 r regression logistic classification predictive-models

7

ロジスティック回帰（Cox＆SnellまたはNagelkerke）について報告するのはどの擬似尺度ですか？

SPSSロジスティック回帰モデルの出力があります。出力は、モデルの適合のための2つの対策を報告し、Cox & SnellそしてNagelkerke。それで、経験則として、これらのR2R²R^²測定値のどれがモデルに適合すると報告しますか？または、これらの適合指数のどれがジャーナルで通常報告されますか？ある程度の背景：回帰は、いくつかの環境変数（例：急峻さ、植生被覆など）から鳥（アカゲラ）の有無を予測しようとします。残念ながら、鳥はあまり頻繁に出現しなかったため（35ヒットから468ミス）、回帰のパフォーマンスはかなり低下しました。Cox＆Snellは.09、Nagelkerke、.23です。主題は、環境科学または生態学です。

55 logistic goodness-of-fit r-squared

2

グローバルな最大プーリング層とは何ですか？また、最大プーリング層に対する利点は何ですか？

誰かがグローバルな最大プーリング層とは何か、そしてそれをニューラルネットワークのトレーニングに使用する理由と時期を説明できますか？彼らは通常の最大プーリング層よりも利点がありますか？

55 neural-networks conv-neural-network pooling

3

階層化された相互検証の理解

成層交差検定と交差検定の違いは何ですか？ウィキペディアによると：層状K倍クロスバリデーション、折り目は、平均応答値は、全ての折り目にほぼ等しくなるように選択されます。二分法の分類の場合、これは、各フォールドが2種類のクラスラベルのほぼ同じ割合を含むことを意味します。しかし、私はまだ混乱しています。何をしないmean response value、この文脈で意味ですか？なぜ＃1が重要なのですか？実際にどのように＃1を達成しますか？

55 cross-validation stratification

5

時系列予測に深層学習を使用する

私はディープラーニングの分野で新しく、最初のステップはdeeplearning.netサイトから興味深い記事を読むことでした。ディープラーニングに関する論文では、ヒントンと他の人は主にそれを画像の問題に適用することについて話します。誰かが私に答えようとすることができますか？それは時系列値（金融、インターネットトラフィックなど）を予測する問題に適用できますか？それが可能であれば私が焦点を当てる必要がある重要なことは何ですか？

54 time-series machine-learning prediction deep-learning deep-belief-networks

2

フィッシャー情報行列とヘッセ行列誤差および標準誤差との関係に関する基本的な質問

わかりました、これは非常に基本的な質問ですが、私は少し混乱しています。私の論文では、次のように書いています。（観測された）フィッシャー情報行列の対角要素の平方根の逆数を計算することにより、標準誤差を見つけることができます。 -ログLI（μ、σ2）=H-1sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Rの最適化コマンドは最小化するため、（観測された）フィッシャー情報行列は、ヘッセ行列の逆数を計算することで見つけることができます： −logL−log⁡L-\log\mathcal{L}I（ μ^、σ^2）= H− 1I(μ^,σ^2)=H−1\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} 私の主な質問：これは私が言っていることは正しいですか？ 7ページのこのソースでは次のように書かれているため、少し混乱しています。情報行列は、ヘッセ行列の期待値の負です（したがって、ヘッセ行列の逆行列はありません。）一方、このソースの 7ページ（脚注5）には次のように記載されています。観測されたフィッシャー情報は等しくなります。（− H）− 1(−H)−1(-H)^{-1} （だからここは逆です。）私はマイナス記号とそれをいつ使用するか、そしていつ使用しないかを知っていますが、なぜ逆符号をとるかどうかで違いがありますか？

54 maximum-likelihood fisher-information

9

データサイエンスでRとPythonはどのように相互補完し合うのですか

多くのチュートリアルまたはマニュアルでは、物語は、Rとpythonが分析プロセスの補完的なコンポーネントとして共存していることを暗示しているようです。しかし、私の訓練を受けていない目には、両方の言語が同じことをしているようです。ですから、私の質問は、2つの言語に本当に特化したニッチがあるのか、それともどちらを使用するのかが個人的な好みなのかということです。

54 r python software

2

移動平均プロセスの実際の例

あなたは、時系列のいくつかの実際の例を与えることができ、注文の移動平均処理のための、すなわち Y T = q個のΣ I = 1 θ I ε トン- 私は + εのトンを、ε T〜N（0 、σ 2）いくつか持っている先験的に良いモデルであることの理由を？少なくとも私にとっては、自己回帰プロセスは直感的に非常に簡単に理解できるように見えますが、MAプロセスは一見自然に見えません。私はそうではないことに注意してくださいqqqyt= ∑i = 1qθ私εt − i+ εt、ここで εt〜N（0 、σ2）yt=∑私=1qθ私εt−私+εt、どこ εt〜N（0、σ2） y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) ここで理論的な結果（ウォルドの定理や可逆性など）に興味があります。私が探しています何の例として、あなたは毎日株式リターンがあると。そうすると、平均的な週次株価収益率は、純粋に統計的な成果物としてMA（4）構造になります。rt〜IID （0 、σ2）rt〜IID（0、σ2）r_t \sim \text{IID}(0, …

54 time-series arima interpretation moving-average

9

素人が分析を行うことが多い時代に、モデルの仮定と評価の重要性を誇張しているか

結論として、統計について学べば学ぶほど、自分の分野で発表された論文を信用しなくなります。私は単に、研究者が統計を十分に行っていないと信じています。私はいわば素人です。私は生物学の訓練を受けていますが、統計や数学の正式な教育を受けていません。私はRを楽しんでおり、研究を行う際に適用する方法の理論的基礎のいくつかを読む（そして理解する）努力をすることがよくあります。今日分析を行っている大多数の人々が実際に正式に訓練されていなくても、私は驚かないでしょう。私は約20のオリジナルの論文を発表しましたが、その一部は有名なジャーナルに受け入れられ、統計学者は頻繁にレビュープロセスに関与しています。私の分析には、通常、生存分析、線形回帰、ロジスティック回帰、混合モデルが含まれます。レビューアーがモデルの仮定、適合、評価について尋ねたことはありません。したがって、モデルの仮定、適合、評価についてあまり気にしませんでした。仮説から始め、回帰を実行し、結果を提示します。場合によってはこれらのことを評価しようと努力しましたが、常に「すべての仮定を満たしていませんでしたが、結果（「主題の知識」）を信頼しているので、もっともらしいので大丈夫です」統計学者に相談するとき、彼らはいつも同意するように思われました。今、私は自分で分析を行う他の統計学者と非統計学者（化学者、医師、生物学者）と話をしました。人々はこれらすべての仮定と正式な評価についてあまり気にしません。しかし、CVには、残差、モデルの適合、評価方法、固有値、ベクトルなどについて尋ねる人がたくさんいます。このように言えば、lme4が大きな固有値について警告するとき、そのユーザーの多くがそれに対処することを気にかけていることを本当に疑います... それは余分な努力の価値がありますか？公開されているすべての結果の大部分がこれらの仮定を尊重しておらず、おそらくそれらを評価していない可能性はありませんか？データベースは毎日大きくなり、データが大きくなると仮定と評価はそれほど重要ではなくなるという考えがあるため、これはおそらく大きな問題です。私は絶対に間違っている可能性がありますが、これは私がこれを認識した方法です。更新： StasKからの引用（下）：http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

54 mathematical-statistics multiple-regression modeling

5

異なる答えを与えるベイジアンおよび頻繁なアプローチの例

注：私は午前の意識哲学的ベイズとfrequentist統計との違い。たとえば、「テーブル上のコインが頭である確率」は、すでに頭または尾を上陸させているため、頻繁な統計では意味がありません。確率については何もありません。そのため、この質問には、頻繁な表現では答えがありません。しかし、そのような違いは、具体的に私が尋ねている種類の違いではありません。むしろ、上で述べた例のような理論的/哲学的な違いを除いて、整形式の質問に対する彼らの予測が実際にどのように異なるかを知りたいと思います。言い換えれば：頻度の高い統計とベイジアン統計の両方で答えられる質問の例は何ですか？その答えは2つで異なりますか？（たとえば、それらの1つが特定の質問に対して「1/2」と答え、他の1つが「2/3」と答える場合があります。）そのような違いはありますか？もしそうなら、いくつかの例は何ですか？そうでない場合、特定の問題を解決するときにベイジアン統計と頻度統計のどちらを使用するかによって、実際に違いが生じるのはいつですか？なぜ一方が他方を支持して避けるのですか？

54 bayesian frequentist