タグ付けされた質問 「model」

確率論的に(ランダムに)関連する変数間の関係を数式の形式で形式化したもの。このタグ自体は使用しないでください。常により具体的なタグを含めてください。

1
ロジスティック回帰におけるインターセプトモデルの有無の違い
ロジスティック回帰における切片モデルの有無の違いを理解したい インターセプトでは係数がベースライングループと比較してlog(オッズ比)を考慮し、インターセプトなしではlog(odds)を考慮することを除いて、それらの間に違いはありますか?私が見たものから、係数は両方のケースで同じですが、重要性は常に同じではなく、なぜそれが理解されていない..さらに、どのケースで切片なしでモデルを使用するのが正しいでしょうか? これが私のモデルglm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)です。「実際の単語」では合計価格が50以下になることはないので、インターセプトを除外するかどうかはわかりませんが、確率は0ではなく1になるので混乱しています。

3
回帰モデルの定義と区切り
恥ずかしいほど単純な質問ですが、以前にクロス検証で質問されたことはないようです: 回帰モデルの定義は何ですか? また、サポートの質問、 何でない回帰モデル? 後者に関しては、答えがすぐにはわからないトリッキーな例に興味があります。例えば、 潜在変数モデル(ARIMAやGARCHなど)はどうですか?

1
加法エラーまたは乗法エラー?
私は統計に比較的不慣れであり、これをよりよく理解するのに役立つことを感謝します。 私の分野では、一般的に使用される形式のモデルがあります。 Pt= Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 人々がモデルをデータに適合させるとき、彼らは通常それを線形化し、以下に適合します ログ(Pt)= ログ(Po)+ αのログ(Vt)+ ϵログ⁡(Pt)=ログ⁡(Po)+αログ⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon これでいい?信号のノイズのために実際のモデルは Pt= Po(Vt)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 上記のように線形化することはできません。これは本当ですか?もしそうなら、誰かが私がそれを読んで学ぶことができ、おそらくレポートで引用することができるリファレンスを知っていますか?

1
一般化線形モデルの幾何学的解釈
線形モデルの場合は:、我々はOLSを経由して推定されたモデルの素敵な幾何学的な解釈ができ、Y = X β + Eを。yが xで張られる空間へと残留y= X β+ ey=バツβ+ey=x\beta+ey^= X β^+ e^y^=バツβ^+e^\hat{y}=x\hat{\beta}+\hat{e}y^y^\hat{y}この空間に垂直であるxで張ら。e^e^\hat{e} さて、私の質問は次のとおりです。一般化線形モデル(ロジスティック回帰、ポアシオン、サバイバル)の幾何学的解釈はありますか?私は推定バイナリロジスティック回帰モデルの解釈方法については非常に興味がありますP = ロジスティック(X βを)線形モデルと同様の方法で、幾何学的に。エラー用語さえありません。 p^= ロジスティック(X β^)p^=ロジスティック(バツβ^)\hat{p} = \textrm{logistic}(x\hat{\beta}) 一般化線形モデルの幾何学的解釈についての話を見つけました。http://statweb.stanford.edu/~lpekelis/talks/13_obs_studies.html#(7) 。残念ながら、図は入手できず、想像するのは非常に困難です。 ヘルプ、参照、および提案は大歓迎です!!!

3
値と1次/ 2次導関数を含むデータにスプラインを適合させるにはどうすればよいですか?
たとえば、位置、速度、加速度の測定値を含むデータセットがあります。すべて同じ「実行」から来ます。線形システムを構築し、それらの測定すべてに多項式を当てはめることができました。 しかし、スプラインでも同じことができますか?これを行う「R」方法とは何ですか? 当てはめたいシミュレーションデータをいくつか示します。 f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- rbind(data, …

1
モデルが正しくない場合でも、MLE推定は漸近的に正常かつ効率的ですか?
前提:これは愚かな質問かもしれません。私はMLEの漸近的性質に関する記述しか知りませんが、証明を研究したことはありません。もしそうなら、これらの質問をするつもりはないだろう、またはこれらの質問が意味をなさないことに気付くかもしれない...だから私に簡単に行ってください:) モデルのパラメーターのMLE推定量が漸近的に正常で効率的であると言うステートメントをよく見ました。文は通常次のように書かれています θ^→dN(θ0,I(θ0)−1)θ^→dN(θ0,I(θ0)−1)\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})としてN→∞N→∞N\to\infty ここでNNNサンプル数であり、II\mathbf{I}フィッシャー情報とでθ0θ0\theta_0パラメータ(ベクトル)である真値。さて、真のモデルへの参照があるので、これは、モデルが真でない場合、結果が保持されないことを意味しますか? 例:風速Vと加法ガウスノイズの関数として風力タービンからの出力をモデル化すると仮定し ます。PPPVVV P=β0+β1V+β2V2+ϵP=β0+β1V+β2V2+ϵP=\beta_0+\beta_1V+\beta_2V^2+\epsilon 少なくとも2つの理由で、モデルが間違っていることを知っています。1)はVの3乗に本当に比例します。2)風速とは無関係な他の予測変数を無視したため、誤差は加法的ではありません(風速0では電力が生成されないため、β0は0でなければなりませんが、ここでは関係ありません)。今、風力タービンからの電力と風速のデータの無限データベースがあると仮定します。どんなサイズのサンプルでも好きなだけ描くことができます。私は1000個のサンプル、サイズ100、及び計算の各描画仮定β 100のMLE推定値β = (β 0、β 1PPPVVVβ0β0\beta_0β^100β^100\hat{\boldsymbol{\beta}}_{100})私のモデルの下でちょうどOLSが推定されるであろう(。私は、このようの分布から1000個のサンプルを持っている β 100。私は練習を繰り返すことができ、N = 500 、1000年、1500年、...。N → ∞の分布すべきである β Nは述べ平均と分散で、漸近的に正常である傾向がありますか?または、モデルが正しくないという事実がこの結果を無効にしますか?β=(β0,β1,β2)β=(β0,β1,β2)\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)β^100β^100\hat{\boldsymbol{\beta}}_{100}N=500,1000,1500,…N=500,1000,1500,…N=500,1000,1500,\dotsN→∞N→∞N\to\inftyβ^Nβ^N\hat{\boldsymbol{\beta}}_{N} 私が尋ねている理由は、アプリケーションではめったに(あるとしても)モデルが「真」であるということです。モデルが真ではないときにMLEの漸近特性が失われた場合、異なる推定原理を使用することは理にかなっている可能性があります。 編集:コメントでは、真のモデルの概念には問題がある可能性があると指摘されていました。モデルの家族与えられた:私は心の中で次のような定義を持っていたのパラメータベクトルでindicized θあなたはいつも書くことができ、家族内の各モデルについて、 fθ(x)fθ(x)f_{\boldsymbol{\theta}}(x)θθ\boldsymbol{\theta} Y=fθ(X)+ϵY=fθ(X)+ϵY=f_{\boldsymbol{\theta}}(X)+\epsilon 単純に定義することによってとしてY - F θ(X )。ただし、一般に、エラーはXに直交せず、平均0を持ち、必ずしもモデルの導出で想定される分布を持つとは限りません。値が存在する場合にはθ 0ようにεはこれら2つのプロパティだけでなく、想定分布を有しているが、私はモデルが真であると言うでしょう。私はこれを直接ことを言ってに関係していると思わF θ 0(X )= E [ Y | X ]、分解のエラー項ϵϵ\epsilonY−fθ(X)Y−fθ(X)Y-f_{\boldsymbol{\theta}}(X)XXXθ0θ0\boldsymbol{\theta_0}ϵϵ\epsilonfθ0(X)=E[Y|X]fθ0(X)=E[Y|X]f_{\boldsymbol{\theta_0}}(X)=E[Y|X] Y=E[Y|X]+ϵY=E[Y|X]+ϵY=E[Y|X]+\epsilon 上記の2つのプロパティがあります。

4
問題が線形回帰に適しているという手がかり
Montgomery、Peck、およびViningによる「Introduction to Linear Regression Analysis」を使用して線形回帰を学習しています。データ分析プロジェクトを選択したいと思います。 線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。しかし、線形回帰は非常に一般的です。 経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
「ノンパラメトリック統計モデル」の実例は何ですか?
私はここで統計モデルに関するWikipediaの記事を読んでいます。具体的には、「ノンパラメトリック統計モデル」の意味について、いくぶん困惑しています。 パラメータセットΘ が無限次元の場合、統計モデルはノンパラメトリックです。統計モデルは、有限次元と無限次元の両方のパラメーターを持つ場合、セミパラメトリックです。形式的に、dがΘの次元で、nがサンプルの数である場合、セミパラメトリックモデルとノンパラメトリックモデルの両方がd → ∞をn → ∞として持つ。もしD / N → 0 としてN → ∞、次にモデルはセミパラメトリックあります。それ以外の場合、モデルはノンパラメトリックです。ΘΘ\ThetadddΘΘ\Thetannnd→∞d→∞d \rightarrow \inftyn→∞n→∞n \rightarrow \inftyd/n→0d/n→0d/n \rightarrow 0n→∞n→∞n \rightarrow \infty モデルの次元(文字通り、パラメーターの数を意味します)が有限であれば、これはパラメトリックモデルです。 私にとって意味をなさないのは、無数のパラメーターを持つ統計モデルをどのようにして "ノンパラメトリック"と呼ぶことができるかです。さらに、それが事実であったとしても、実際には無限の次元があるのに、なぜ「非」なのでしょうか。最後に、私は機械学習のバックグラウンドから来ているので、この「ノンパラメトリック統計モデル」と「ノンパラメトリック機械学習モデル」との違いはありますか?最後に、そのような「ノンパラメトリック無限次元モデル」の具体的な例は何でしょうか?

2
標準偏差が独立変数でスケーリングするレートを推定する
正規分布変数測定を行っている実験があります。YYY Y∼N(μ,σ)Y∼N(μ,σ)Y \sim N(\mu,\sigma) しかし、以前の実験は、標準偏差といういくつかの証拠が提供された独立変数のアフィン関数であるXを、すなわち、σσ\sigmaXXX σ=a|X|+bσ=a|X|+b\sigma = a|X| + b Y∼N(μ,a|X|+b)Y∼N(μ,a|X|+b)Y \sim N(\mu,a|X| + b) Xの複数の値でYをサンプリングすることにより、パラメーターおよびbを推定したいと思います。さらに、実験の制限により、Yの限られた数(約30〜40)のサンプルしか取得できず、無関係な実験上の理由から、Xのいくつかの値でサンプリングすることを好みます。これらの制約がある場合、aとbを推定するためにどのような方法が利用できますか?aaabbbYYYXXXYYYXXXaaabbb 実験の説明 これは、上記の質問をする理由に興味がある場合の追加情報です。私の実験では、聴覚と視覚の空間知覚を測定します。さまざまな場所からの聴覚的または視覚的なターゲットを提示できる実験設定があり、被験者はターゲットの知覚された場所Yを示します。上記のσとしてモデル化した離心率の増加(つまり| X |の増加)により、ビジョン*とオーディションの両方の精度が低下します。結局、aとbを見積もりたいXXXYYY|X||X||X|σσ\sigmaaaabbbビジョンとオーディションの両方のために、私は空間内のさまざまな場所にわたる各感覚の精度を知っています。これらの推定値は、同時に提示される場合に視覚的および聴覚的ターゲットの相対的な重み付けを予測するために使用されます(ここで提示される多感覚統合の理論と同様:http : //www.ncbi.nlm.nih.gov/pubmed/12868643)。 *中心窩空間と中心窩外空間を比較すると、このモデルは視覚に対して不正確であることがわかっていますが、私の測定値は中心窩空間にのみ制限されています。これはまともな近似です。

1
統計モデル表記の「標準」はありますか?
たとえば、Bugsのマニュアルや、LeeとWagenmakersによる近刊の本(pdf)やその他の多くの場所では、ほとんどの統計モデルを簡潔に説明するのに使用できるという点で、私には非常に柔軟な表記法が使用されています。この表記の例は次のとおりです。 y私〜二項(p私、n私)ログ(p私1 − p私)= b私b私〜通常(μp、σp)yi∼Binomial(pi,ni)log⁡(pi1−pi)=bibi∼Normal(μp,σp) y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p) これは、予測子はないがグループの階層ロジスティックモデルを表します。モデルを説明するこの方法は、あなただけで事前確率を追加する必要があります。このモデル記述完全ベイズを作るために、例えば、frequentistとベイズモデルを記述するためにも同様にうまく動作するように思えるμ Pとσ のp。i = 1 … ni=1…ni = 1\dots n μpμp\mu_pσpσp\sigma_p このタイプのモデル表記/形式は、いくつかの記事または本で詳細に説明されていますか? この表記法を使用してモデルを記述したい場合は、さまざまな方法があり、他の人をフォローしたり参照したりするための包括的なガイドがあると非常に便利です。人々がこのタイプの表記法をどのように使用するかで私が見つけたいくつかの違い: ディストリビューションとは何ですか?たとえば、などを見たことがあります。N、N 、Norm 、NormalN,N,Norm,Normal\mathcal{N},\text{N},\text{Norm},\text{Normal} インデックスをどのように扱いますか?例えば、私は、y i [ j ]、y jを見た| 私などy私はjyijy_{ij}y私[ j ]yi[j]y_{i[j]}yj|iyj|iy_{j|i} μμ\mu 追加質問:この表記には名前がありますか?(より良い名前がないため、私が書い たブログ投稿では、確率分布中心の慣習と呼んでいました...)

6
機械学習における柔軟で柔軟性のないモデル
さまざまなシナリオでの柔軟なモデル(スプラインなど)と柔軟性のないモデル(線形回帰など)の比較に関する簡単な質問に遭遇しました。質問は: 一般に、次の場合、柔軟な統計学習法のパフォーマンスは、柔軟性のない方法よりも良いか悪いかを予想しますか? 予測子の数は非常に大きく、観測値の数は少ないですか? npppんnn エラー項の分散、すなわちσ2= Var (e )σ2=Var(e)σ^2 = \text{Var}(e)は非常に高いですか? (1)については、んnnが小さい場合、柔軟性のないモデルの方が良い(わかりません)と思います。(2)については、どちらのモデルが(比較的)優れているかわかりません。

3
「モデルを学ぶ」という用語はどこから来たのですか
ここのデータマイナーがこの用語を使用することをよく耳にします。分類の問題に取り組んだ統計学者として、「分類子を訓練する」という用語をよく知っており、「モデルを学習する」と同じことを想定しています。「分類子を訓練する」という言葉は気にしません。これは、トレーニングデータを使用してモデルパラメータの適切な「改善された」推定値を取得するため、モデルの当てはめのアイデアを描いているようです。しかし、それは知識を得るための手段を学ぶでしょう。わかりやすい英語で「モデルを学ぶ」とは、それが何かを知ることを意味します。しかし、実際にはモデルを「知る」ことはありません。モデルは現実に近似していますが、正しいモデルはありません。それはボックスが「モデルは正しくないが、いくつかは有用である」と言ったようです。 データマイナーの応答を聞きたいです。この用語の由来は?それを使うなら、なぜそれが好きですか?

7
モデル構築における社会的差別の回避
アマゾンの最近の求人スキャンダルからインスピレーションを得た質問があります。求人プロセスで女性に対する差別があったとして非難されました。詳細はこちら: Amazon.com Incの機械学習スペシャリストは大きな問題を発見しました。彼らの新しい採用エンジンは女性が好きではありませんでした。 チームは2014年以来、優秀な人材の検索を機械化することを目的として求職者の履歴書をレビューするためにコンピュータープログラムを構築しています... ...同社の実験的採用ツールは、人工知能を使用して1〜5つ星の範囲の求職者のスコアを与えました... ...しかし、2015年までに、同社は新しいシステムがソフトウェア開発者の求人やその他の技術的な投稿の候補者を性別に中立的な方法で評価していないことに気付きました。 これは、Amazonのコンピューターモデルが、10年間に渡って会社に提出された履歴書のパターンを観察することで、応募者を精査するように訓練されたためです。ほとんどが男性から来ており、テクノロジー業界全体で男性が優勢であることを反映しています。(技術における性別の内訳については、こちらを参照してください:こちらをご覧ください)実際、Amazonのシステムは、男性の候補者が望ましいことを教えてくれました。「女性のチェスクラブのキャプテン」のように「女性の」という言葉を含む履歴書にペナルティを課した。そして、問題に詳しい人々によると、それは2つのすべての女性の大学の卒業生を格下げした。彼らは学校の名前を明記しなかった。 Amazonは、これらの特定の条件に中立になるようにプログラムを編集しました。しかし、それは、マシンが差別的であると証明することができる候補を分類する他の方法を考案しないという保証ではなかった、と人々は言った。 シアトルの会社は、幹部がプロジェクトへの希望を失ったため、最終的に昨年の初めまでにチームを解散しました... ...会社の実験は...機械学習の限界におけるケーススタディを提供します。 ...カーネギーメロン大学で機械学習を教えるニハール・シャーのようなコンピューター科学者は、まだやらなければならないことがたくさんあると言います。 「アルゴリズムが公正であることを保証する方法、アルゴリズムが本当に解釈可能で説明可能であることを確認する方法-それはまだかなり遠い」と彼は言った。 MASCULINE LANGUAGE [Amazon]は、Amazonのエジンバラエンジニアリングハブにチームを編成し、約12人に成長しました。彼らの目標は、ウェブを迅速にクロールし、採用に値する候補者を見つけることができるAIを開発することでした、と問題に詳しい人々は言った。 グループは、特定の職務と場所に焦点を当てた500台のコンピューターモデルを作成しました。彼らはそれぞれ、過去の候補者の履歴書に現れた約50,000の用語を認識するように教えました。アルゴリズムは、さまざまなコンピューターコードを書く能力など、IT応募者に共通のスキルにほとんど重要性を割り当てないことを学びました... 代わりに、テクノロジーは、男性エンジニアの履歴書でより一般的に見られる動詞を使用して自分自身を説明する候補者を支持しました。ある人は、「執行された」と「捕らえられた」と語った。 新しい個人の募集に役立つ5つ星のランキングなど、個人データからの出力を予測する統計モデルを構築するとします。倫理的な制約として、性差別も避けたいとしましょう。性別を除いて2つの厳密に等しいプロファイルが与えられた場合、モデルの出力は同じになるはずです。 性別(またはそれに関連するデータ)を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか? 性別による差別がないことを確認するにはどうすればよいですか? 統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか?

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.