統計とビッグデータ

5

「尤度は、比例の乗法定数までしか定義されていません」とは実際にはどういう意味ですか？

筆者は、表面上は初心者への紹介として、最尤推定の議論からベイズの定理へと導く論文を読んでいます。尤度の例として、二項分布から始めます。 p （x | n 、θ ）= （ nバツ） θバツ（1 - θ ）n − xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} そして、両側を記録します ℓ （θ | x 、n ）= x ln（θ ）+ （n − x ）ln（1 - θ ）ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 次の理由で：「尤度は比例の乗法定数（または対数尤度の加法定数）までしか定義されていないため、二項係数を削除し、尤度の代わりに対数尤度を記述することにより、再スケーリングできます。」数学は理にかなっていますが、「尤度は比例の乗法定数までしか定義されていない」と、これが二項係数を下げてp （x | n 、θ …

19 bayesian likelihood definition philosophical

2

因子/変数をどのように「制御」しますか？

私の理解では、「コントロール」には統計上で2つの意味があります。対照群：実験では、対照群のメンバーに治療は施されていません。例：プラセボと薬物：あるグループに薬物を投与し、他のグループ（対照）には投与しません。これは「制御実験」とも呼ばれます。変数の制御：特定の独立変数の効果を分離する手法。この技術に与えられた他の名前のいくつかは、「会計」、「保持定数」、「制御」、いくつかの変数です。例：サッカー視聴調査（好きか嫌いか）では、性別がバイアスを引き起こすと考えられるため、性別の影響を取り除くことができます。つまり、男性は女性よりもそれを好む可能性があります。したがって、私の質問はポイント（2）に対するものです。2つの質問：一般的に、どのようにして変数を「制御」/「アカウント」しますか。どのようなテクニックが使用されていますか？（回帰の観点から、ANOVAフレームワーク）。上記の例では、男性と女性をランダムに選択することがコントロールを構成していますか？つまり、「ランダム」は他の効果を制御するためのテクニックの1つですか？

19 regression self-study anova experiment-design controlling-for-a-variable

4

lme4（> 1.0）に適合した二項GLMMの適合を評価する方法は？

私は二項分布とロジットリンク関数を備えたGLMMを所有しており、データの重要な側面がモデルで十分に表現されていないように感じています。これをテストするために、データがロジットスケールの線形関数で適切に記述されているかどうかを知りたいと思います。したがって、残差が適切に動作するかどうかを知りたいです。ただし、どの残差プロットでプロットするか、プロットをどのように解釈するかはわかりません。新しいバージョンのlme4（GitHubの開発バージョン）を使用していることに注意してください。 packageVersion("lme4") ## [1] ‘1.1.0’ 私の質問は次のとおりです。ロジットリンク関数を使用して、二項一般化線形混合モデルの残差を検査および解釈するにはどうすればよいですか。次のデータは、実際のデータの17％しか表していませんが、フィッティングは既に私のマシンで約30秒かかるため、次のようにします。 require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) 最も単純なプロット（?plot.merMod）は以下を生成します。 plot(m1) これはすでに何か教えてくれますか？

19 binomial residuals glmm lme4-nlme

2

Rのロジスティック成長曲線を近似する最も簡単な方法は何ですか？

これは、明確にするために、カテゴリ変数を予測するために回帰を使用するという意味でロジスティック回帰について話していないので、Googleにとって他のことほど簡単ではありません。ロジスティック成長曲線を特定のデータポイントに適合させることについて話しています。具体的には、は1958年から2012年までの特定の年であり、は年の11月の推定CO2 ppm（二酸化炭素の百万分の1）です。y xバツxxyyyバツバツx 今は加速していますが、ある時点で横ばいになります。ロジスティックカーブが必要です。これを行う比較的簡単な方法はまだ見つかりませんでした。

19 r nonlinear-regression curve-fitting logistic-curve

5

1と0を含む比率データのベータ回帰

0と1の間の比率である応答変数を持つモデルを作成しようとしています。これには、かなりの数の0と1が含まれますが、その間の多くの値も含まれます。ベータ回帰を試みることを考えています。R（betareg）で見つかったパッケージでは、0から1の間の値のみが許可されますが、0または1自体は含まれません。私は理論的にはベータ分布が0または1の値を処理できるはずであることを他の場所で読みましたが、RIでこれを処理する方法がわかりませんが、ゼロに0.001を追加し、1から0.001を取る人がいますこれは良いアイデアだと思いますか？あるいは、応答変数をロジット変換し、線形回帰を使用することもできます。この場合、ログ変換できない0と1の問題があります。

19 regression mixed-model beta-distribution zero-inflation beta-regression

1

R（lme4）対Stata（xtmixed）のランダム効果の標準誤差

このデータを考慮してください： dt.m <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), occasion = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, …

19 r mixed-model stata lme4-nlme

1

Coxベースラインハザード

「腎臓カテーテル」データセットがあるとしましょう。Coxモデルを使用して生存曲線をモデル化しようとしています。Coxモデルを考えると：ベースラインハザードの推定値が必要です。組み込みのパッケージR関数を使用することで、次のように簡単に実行できます。h （t 、Z）= h0exp(b′Z）、h(t,Z)=h0exp⁡(b′Z)、h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) しかし、パラメータの特定の推定値のベースラインハザードのステップごとの関数を書きたい場合はどうすればよいbですか？私は試した： bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time k <- length(dt) risk <- exp(data.matrix(data[,-c(1:2)]) %*% beta) h <- rep(0,k) for(i in 1:k) …

19 r cox-model hazard

2

機能エンジニアリングのチュートリアル

すべての人に知られているように、機能工学は機械学習にとって非常に重要ですが、この分野に関連する資料はほとんど見つかりませんでした。Kaggleのいくつかのコンテストに参加しましたが、場合によっては、優れた機能が優れた分類器よりも重要であると考えています。誰かが機能エンジニアリングに関するチュートリアルを知っていますか、それともこの純粋な経験ですか？

19 machine-learning references feature-construction

1

Rのauto.arima（）でxreg引数を設定する方法は？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。私は、顧客の訪問データ（毎日）を測定する1つの時系列を持つ小さなプロジェクトに取り組んでいます。私の共変量は、Dayデータ収集の最初の日から経過した日数を測定する連続変数と、その日がクリスマスであるか、曜日であるかなどのダミー変数です。データの一部は次のようになります。 Date Customer_Visit Weekday Christmas Day 11/28/11 2535 2 0 1 11/29/11 3292 3 0 2 11/30/11 4103 4 0 3 12/1/11 4541 5 0 4 12/2/11 6342 6 0 5 12/3/11 7205 7 0 6 12/4/11 3872 1 0 7 12/5/11 3270 2 0 …

19 time-series arima

1

対数正規確率変数の達成可能な相関

およびの対数正規確率変数およびを考え。X 2ログ（X 1）〜N（0 、1 ）ログ（X 2）〜N（0 、σ 2）X1X1X_1X2X2X_2log(X1)∼N(0,1)log⁡(X1)∼N(0,1)\log(X_1)\sim \mathcal{N}(0,1)log(X2)∼N(0,σ2)log⁡(X2)∼N(0,σ2)\log(X_2)\sim \mathcal{N}(0,\sigma^2) ρmaxρmax\rho_{\max} ρ （X 1、X 2）ρminρmin\rho_{\min}ρ(X1,X2)ρ(X1,X2)\rho (X_1,X_2) ρmax=ρ(exp(Z),exp(σZ))ρmax=ρ(exp⁡(Z),exp⁡(σZ))\rho_{\max}=\rho (\exp(Z),\exp(\sigma Z))および ρmin=ρ(exp(Z),exp(−σZ))ρmin=ρ(exp⁡(Z),exp⁡(−σZ))\rho_{\min}=\rho (\exp(Z),\exp(-\sigma Z))、しかし、彼らは共単調性と反共等張性についていくつか言及しています。私は誰かがそれらがどのように関連しているかを理解するのを手伝ってくれることを望んでいました。（一般的な表現からこれを取得する方法は知っていますが、共単調性部分が何を言っているかを具体的に知りたいです。）

19 correlation copula

2

分散に関する回帰はなぜですか？

私はこのメモを読んでいます。 2ページに、次のように記載されています。「データの分散は、特定の回帰モデルによってどの程度説明されますか？」「回帰の解釈は係数の平均に関するものであり、推論はそれらの分散に関するものです。」私はそのような声明について何度も読みましたが、なぜ「データの分散が与えられた回帰モデルによってどれほど説明されるのか」を気にするのはなぜでしょうか...より具体的には、なぜ「分散」なのでしょうか？

19 regression variance interpretation

2

ログ変換は、非正規データをt検定するための有効な手法ですか？

著者は、論文をレビューする際に、「正規分布の前提条件を満足するためにtテストが行われる前に、自然対数を使用して、歪んだ分布を示す連続的な結果変数が変換された」と述べています。これは、特に基礎となる分布が必ずしも対数正規分布ではない場合に、非正規データを分析するのに受け入れられる方法ですか？これは非常にばかげた質問かもしれませんが、これを以前に見たことはありません。

19 normal-distribution data-transformation t-test lognormal

2

経験的エントロピーとは何ですか？

共同で典型的な集合の定義（「情報理論の要素」、ch。7.6、p。195）では、として経験的エントロピーのn個と-sequenceP（XのN）=Π N iは= 1つの Pを（XI）。これまでこの用語に出会ったことはありません。本のインデックスに従ってどこでも明示的に定義されていません。−1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} 私の質問は基本的には次のとおりです。なぜ経験的エントロピーはない場所P（X ）で経験分布？−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x）\hat p(x) これら2つの式の最も興味深い違いと類似点は何ですか？（共有する/しないプロパティの観点から）。

19 information-theory entropy

2

対称分布の定義は何ですか？

対称分布の定義は何ですか？誰かが、Xと− Xが同じ分布を持っている場合に限り、ランダム変数XXXは対称分布から来たと私に言った。しかし、この定義は部分的に正しいと思います。私は反例提示することができますので、X 〜N （μ 、σ 2）とμ ≠ 0を。明らかに、対称的な分布を持っていますが、Xと− Xは異なる分布を持っています！私は正しいですか？この質問について考えたことはありますか？対称分布の正確な定義は何ですか？XXX−X−X-XX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^{2})μ≠0μ≠0\mu\neq0XXX−X−X-X

19 distributions definition symmetry

3

混合効果モデルよりも反復測定ANOVAが好ましいのはいつですか？

受けて、この質問、私はランダムのいずれかで、私は私が代わりに混合モデルを使用する必要があることの答えを私は反復測定ANOVAを使用する必要がありますたとえばました異なるカテゴリからの写真で参加者を提示ところ、私のデザインかどうかについて理由は、サブジェクトとカテゴリの2つの依存関係があるからです。私の質問は次のとおりです。このタイプの繰り返し測定の設計を行うときに、このように2つの依存関係があるのは常にそうではありませんか？つまり、どのような状況で反復測定ANOVAが混合効果モデリングアプローチよりも望ましいのか、そしてその理由は何ですか？

19 anova mixed-model repeated-measures