タグ付けされた質問 「linear-model」

確率変数が有限数のパラメーターで線形である関数によって1つ以上の確率変数に関連付けられているモデルを指します。


2
逆独立変数による回帰
のは、私が持っているとしましょう -ベクトル従属変数のを、および -ベクトルの独立変数の。場合プロットされている、私は2つの間の直線関係(上昇傾向)があることがわかります。これは、と間に線形の下降傾向があることも意味します。Y N X Y 1NNNYYYNNNバツXXYYY YX1バツ1X\frac{1}{X}YYYXXX ここで、回帰を実行した場合: と近似値を得ますY = β XY=β∗X+ϵY=β∗X+ϵY = \beta * X + \epsilonY^=β^XY^=β^X\hat{Y} = \hat{\beta}X 次に、回帰を実行します:とフィッティングされた値 〜Y = α 1Y=α∗1X+ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonY~=α^1XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} 2つの予測値、とはほぼ等しくなりますか? 〜YY^Y^\hat{Y}Y~Y~\tilde{Y}


1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
線形モデルの異分散性
次の線形モデルがあります。 残差の異分散性に対処するために、従属変数にとして対数変換を適用しようとしましたが、残差に対する同じファンアウト効果がまだあります。DV値は比較的小さいため、ログを取得する前の+1定数の追加は、この場合はおそらく適切ではありません。log(Y+1)log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 特に予測誤差と分散を改善するために変数をどのように変換できますか?

3
線形回帰における線形性の仮定は単に
線形回帰を修正しています。 グリーンによる教科書はこう述べている: ここで、もちろん、線形回帰モデルにはなどの他の仮定があります。この仮定と線形性の仮定(実際にはdefinesを定義する)を組み合わせると、モデルに構造が適用されます。E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon しかし、直線性の仮定自体によっては以来、私たちのモデルにどのような構造を入れていません完全に任意でよいです。変数X 、yについては、2つの関係が何であれ、線形性の仮定が成り立つようにϵを定義できます。したがって、線形性「仮定」は、仮定ではなく、実際にはϵの定義と呼ばれるべきです。ϵϵ\epsilonX,yX,yX, yϵϵ\epsilonϵϵ\epsilon したがって、私は不思議に思っています: グリーンはだらしないですか?彼は、実際に書かれている必要があります:?これは実際にモデルに構造を置く「線形性の仮定」です。E(y|X)=XβE(y|X)=XβE(y|X)=X\beta それとも私は、直線性の仮定がモデルに構造を置いていないことを受け入れなければならないだけ定義します他の仮定はのその定義に使用する、εをモデルに構造を置くことを?ϵϵ\epsilonϵϵ\epsilon 編集:他の仮定については混乱があるようですので、ここに仮定の完全なセットを追加しましょう: これはグリーン、計量経済分析、第7版からです。p。16。

2
線形回帰では、相互作用項のみに関心があるのに、なぜ2次項を含める必要があるのでしょうか。
以下のために、私は、線形回帰モデルに興味を持っていたとYi=β0+β1x1+β2x2+β3x1x2Yi=β0+β1x1+β2x2+β3x1x2Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2、私は2つの共変量間の相互作用が効果を持っているかどうかを確認したいと思いますので、 Yに 教授の講義ノート(私は連絡をとっていません)には、次のように記載されています。即ち、Yi=β0+β1x1+β2x2+β3x1x2+β4x21+β5x22Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2、回帰に含まれるべきです。 相互作用のみに関心があるのに、なぜ2次用語を含める必要があるのですか?

5
十分位数を使用して相関を見つけることは、統計的に有効なアプローチですか?
相関関係のない1,449データポイントのサンプルがあります(r二乗0.006)。 データを分析したところ、独立変数の値を正と負のグループに分割すると、各グループの従属変数の平均に有意差があるように見えました。 独立変数値を使用してポイントを10ビン(十分位数)に分割すると、十分位数と平均従属変数値(r-2乗0.27)の間に強い相関があるようです。 私は統計についてあまり知らないので、ここにいくつかの質問があります: これは有効な統計的アプローチですか? 最適な数のビンを見つける方法はありますか? このアプローチの適切な用語は何ですか。 このアプローチについて学ぶためのいくつかの紹介リソースは何ですか? このデータの関係を見つけるために使用できる他の方法は何ですか? 参照用の十分位数データは次のとおりです。https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90 編集:これはデータの画像です: 業界の勢いは独立変数であり、エントリーポイントの品質は依存しています

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
線形モデルの空間共分散をどのように説明できますか?
バックグラウンド 私は、2つのブロックのそれぞれに4つの処理レベルと6つの複製があるフィールド調査のデータを持っています。(4x6x2 = 48観測) ブロックは約1マイル離れており、ブロック内には、42のグリッド、2m x 4mの区画、および1mの幅の歩道があります。私の研究では、各ブロックで24のプロットのみを使用しました。 空間共分散の評価を評価したいと思います。 以下は、空間共分散を考慮しない、単一ブロックのデータを使用した分析の例です。データセットで、plotはプロットID、xはy各プロットのx位置とy位置で、プロット1は0を中心とし、0 levelは処理レベルでresponseあり、は応答変数です。 layout <- structure(list(plot = c(1L, 3L, 5L, 7L, 8L, 11L, 12L, 15L, 16L, 17L, 18L, 22L, 23L, 26L, 28L, 30L, 31L, 32L, 35L, 36L, 37L, 39L, 40L, 42L), level = c(0L, 10L, 1L, 4L, 10L, 0L, 4L, 10L, 0L, 4L, …

2
さまざまな差異の後の回帰係数の解釈
時系列を差分した後に線形回帰係数を解釈する方法(単位根を除去するため)を説明する説明はほとんどありません。単純に、それを正式に述べる必要がないほど単純ですか? (私はこの質問を知っていますが、それがどの程度一般的であるかはわかりませんでした)。 モデル興味があるとしましょう ここで、はおそらくARMA(p、q)です。興味深いのは、、、...です。具体的には、「 1単位の変化」という観点からの解釈は、、の平均変化をもたらし δ T β 1 β 2 β Pの X I YはT β I iが= 1つの... Pを。Yt=β0+β1X1t+β2X2t++...+βpXpt+δtYt=β0+β1X1t+β2X2t++...+βpXpt+δtY_{t}=\beta_{0}+\beta_{1}X_{1t}+\beta_{2}X_{2t} + +...+\beta_{p}X_{pt}+ \delta_{t}δtδt\delta_{t}β1β1\beta_{1}β2β2\beta_{2}βpβp\beta_{p}XiXiX_{i}YtYtY_{t}βiβi\beta_{i}i=1...p.i=1...p.i = 1...p. ここで、ユニットルートからの非定常性が疑われるためにを差分する必要があるとしましょう(例:ADFテスト)。次に、同じように、それぞれのも異なるようにする必要があります。 X i tYtYtY_{t}XitXitX_{it} 次の場合、の解釈は何ですか?βiβi\beta_{i} 第1の差分 から取られるとの各? Y t X i tY』tYt′Y'_{t}YtYtY_{t}バツ私トンXitX_{it} 第2の差分(差分の差分)()から取られY_ {T}との各X_ {それ}?Y」tYt″Y''_{t} X i tYtYtY_{t}バツ私トンXitX_{it} 季節差(例えば(1 − B12)(1−B12)(1-B^{12}) 毎月のデータ用)から取得されYtYtY_{t}との各XitXitX_{it}? 編集1 係数の違いと解釈につ​​いて言及しているテキストを1つ見つけました。リンクされた質問とよく似ています。これは、動的回帰を使用したAlan …

1
線形回帰のバイアス分散分解における分散項
'統計的学習の要素'は、線形モデルのバイアス分散分解のための式は以下のように与えられる F (X 0)Err(x0)=σ2ϵ+E[f(x0)−Ef^(x0)]2+||h(x0)||2σ2ϵ,Err(x0)=σϵ2+E[f(x0)−Ef^(x0)]2+||h(x0)||2σϵ2,Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,f(x0)f(x0)f(x_0)実際の目標関数であり、モデルにおけるランダム誤差の分散であり、Y = F (X )+ ε及びF(xは)の線形推定量であるF (X )。σ2ϵσϵ2 \sigma_\epsilon^2y=f(x)+ϵy=f(x)+ϵy=f(x)+\epsilonf^(x)f^(x)\hat f(x)f(x)f(x)f(x) 分散項は、式はターゲットがノイズレスであれば分散がゼロになることを意味するので、あること、ここで私を悩まれているしかし、たとえゼロノイズが、私はまだ違う得ることができますので、それは私には意味がありません。推定F(X 0)分散を意味異なるトレーニングセットについて、非ゼロです。σ2ϵ=0.σϵ2=0.\sigma_\epsilon^2=0.f^(x0)f^(x0)\hat f(x_0) たとえば、ターゲット関数が2次であり、トレーニングデータにこの2次からランダムにサンプリングされた2つのポイントが含まれているとします。明らかに、二次ターゲットからランダムに2つのポイントをサンプリングするたびに、異なる線形近似が得られます。では、どのように分散をゼロにすることができますか?f(x0)f(x0)f(x_0) 誰かがバイアス分散分解の私の理解の何が間違っているかを見つけるのを手伝ってくれる?

1
正規分布エラーと中心極限定理
ウォルドリッジの導入計量経済学では、引用があります: エラーの正規分布を正当化する引数は通常、次のようなものですはに影響を与える多くの異なる観測されていない要因の合計であるため、中心極限定理を呼び出して、が近似正規分布であると結論付けることができます。uuuyyyuuu この引用は、線形モデルの仮定の1つに関連しています。 u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) ここで、uuuは母集団モデルの誤差項です。 さて、私の知る限りでは、中心極限定理は、 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (ここで、Yi¯¯¯¯¯Yi¯\overline{Y_i} は、平均μμμと分散σ^ 2を持つ任意の母集団から抽出されたランダムサンプルの平均ですσ2σ2σ^2) n \ rightarrow \ inftyとして標準の標準変数に近づきn→∞n→∞n \rightarrow \inftyます。 質問: Z_iの漸近正規性ZiZiZ_iがu \ sim N(μ、σ^ 2)をどのように意味するかを理解するu∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)

1
普通の最小二乗で、普通は何ですか?
私の友人は最近、普通の最小二乗について、何がそんなに普通かを尋ねました。議論のどこにも行き着かなかったようです。OLSは線形モデルの特殊なケースであり、多くの用途があり、よく知られており、他の多くのモデルの特殊なケースであることに、両者は同意しました。しかし、これは本当にすべてですか? したがって、私は知りたいのですが: 名前は本当にどこから来たのですか? 名前を最初に使用したのは誰ですか?

3
回帰を使用してデータ範囲外に投影しますか?大丈夫?時々大丈夫?
データ範囲外に投影するために回帰を使用することについてどう思いますか?線形またはべき乗モデルの形状に従うことが確かな場合、モデルはデータ範囲を超えて有用ではないでしょうか?たとえば、私は価格によって駆動されるボリュームを持っています。私は信じているデータ範囲外の価格を予測できるはずです。あなたの考え? VOL PRICE 3044 4.97 2549 4.97 3131 4.98 2708 4.98 2860 4.98 2907 4.98 3107 4.98 3194 4.98 2753 4.98 3228 4.98 3019 4.98 3077 4.99 2597 4.99 2706 4.99 3000 4.99 3022 4.99 3084 4.99 3973 4.99 3675 4.99 3065 4.99 3407 4.99 2359 4.99 2802 4.99 2589 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.