タグ付けされた質問 「linear-model」

確率変数が有限数のパラメーターで線形である関数によって1つ以上の確率変数に関連付けられているモデルを指します。

4
Rに観測値や予測値を追加するときに線形回帰を効率的に更新する
観測または予測子が追加されたときに線形モデルを効率的に更新する方法をRで見つけることに興味があります。biglmには観測値を追加する際の更新機能がありますが、データはメモリに常駐するのに十分なサイズです(ただし、更新するインスタンスは多数あります)。これを素手で行う方法、例えばQR分解を更新する方法があります(HammarlingとLucasによる「QR分解と最小二乗問題の更新」を参照)が、既存の実装を期待しています。

1
完全な列ランク未満の制限付き最尤法
この質問は、線形モデルの特定のバージョンにおける制限付き最尤法(REML)の推定を扱っています。 Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), ここで、は、と同様に、でパラメーター化された()行列です。は迷惑パラメーターの未知のベクトルです。関心が推定である、私たちは持っている。最尤法によるモデルの推定は問題ありませんが、REMLを使用したいと思います。これはよく知られており、例えば、参照LaMotteを、尤度その、なるよう任意の半直交行列である書くことができます。X(α)X(α)X(\alpha)n×pn×pn \times pα∈Rkα∈Rk\alpha \in \mathbb R^kΣ(α)Σ(α)\Sigma(\alpha)ββ\betaαα\alphak≤p≪nk≤p≪nk\leq p\ll nA′YA′YA'YAAAA′X=0A′X=0A'X=0 LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y,LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp⁡{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y, L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y, when XXX is full column rank. My problem is that for some perfectly reasonable, and …

1
QQラインの信頼帯
この質問は特にに関係するものRではありませんがR、説明のために使用することにしました。 (通常の)qqラインの周りに信頼帯を生成するコードを考えます。 library(car) library(MASS) b0<-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") 私はこれらの信頼帯がどのように構築されるかの説明(または代替の紙/オンライン文書へのリンク)を探しています(RのヘルプファイルでFox 2002への参照を見ましたが、悲しいことに私はこれを持っていません便利な本)。 私の質問は例を使用してより正確になります。Rこれらの特定のCIの計算方法は次のとおりです(で使用するコードを短縮/簡略化しましたcar::qqPlot)。 x<-b0$resid good<-!is.na(x) ord<-order(x[good]) ord.x<-x[good][ord] n<-length(ord.x) P<-ppoints(n) z<-qnorm(P) plot(z,ord.x,type="n") coef<-coef(rlm(ord.x~z)) a<-coef[1] b<-coef[2] abline(a,b,col="red",lwd=2) conf<-0.95 zz<-qnorm(1-(1-conf)/2) SE<-(b/dnorm(z))*sqrt(P*(1-P)/n) #[WHY?] fit.value<-a+b*z upper<-fit.value+zz*SE lower<-fit.value-zz*SE lines(z,upper,lty=2,lwd=2,col="red") lines(z,lower,lty=2,lwd=2,col="red") 問題は、これらのSEを計算するために使用される式の正当化とは何ですか(例:line SE<-(b/dnorm(z))*sqrt(P*(1-P)/n))。 FWIWこの式は、線形回帰で使用される通常の信頼帯の式とは大きく異なります

1
直交多項式回帰から生の係数と分散を回復する
それは私のような回帰モデルを持っている場合と思われるyi〜β0+β1バツ私+β2バツ2私+β3バツ3私y私〜β0+β1バツ私+β2バツ私2+β3バツ私3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3生の多項式を当てはめて信頼性の低い結果を得るか、直交多項式を当てはめて直接的な物理的解釈のない係数を得ることができます(たとえば、元のスケールで極値の位置を見つけるのに使用できません)。私は両方の長所を持ち、フィットした直交係数とその分散を元のスケールに変換できるようになっているようです。私は応用線形回帰の大学院コースを受講し(Kutner、5edを使用)、Draperの多項式回帰の章(3ed、Kutnerによって参照)を調べましたが、これを行う方法についての議論は見つかりませんでした。のヘルプテキストpoly()Rの関数はそうではありません。ここを含め、ウェブ検索で何も見つかりませんでした。直交多項式に当てはめられた係数から生の係数を再構築しています(そしてその分散を取得しています)... 不可能で、時間を無駄にしています。 おそらく可能ですが、一般的な場合の方法はわかりません。 「誰がしたいのか?」 可能ですが、「明らか」だから議論されていません。 答えが3または4の場合、これを行う方法を説明したり、そうするソースを指摘したりする忍耐があれば、非常に感謝します。それが1または2の場合、私はまだ障害が何であるかを知りたいです。これを読んでくれてありがとう、そして明白な何かを見落としているなら、私は前もって謝罪する。

3
線形回帰では、F統計、Rの2乗、残差標準誤差は何を示しますか?
私は、次の用語の線形回帰のコンテキストに関する意味の違いについて本当に混乱しています。 F統計 Rの2乗 残留標準誤差 私が見つかりました。このwebstie私の線形回帰に関連するさまざまな面で素晴らしい洞察力、非常に多くのように見えるのA上記ただし条件を与えた(私が理解限りが)。私が読んだものと私を混乱させたものを引用します: 残差標準誤差は、線形回帰フィットの品質の尺度です。......残差標準誤差は、応答(dist)が真の回帰直線から逸脱する平均量です。 1.これは実際には、lmラインからの観測値の平均距離ですか? R二乗統計は、モデルが実際のデータにどれだけ適合しているかの尺度を提供します。 2.観測点が回帰直線からどれだけ離れているかをRSEが示す場合、低RSEが実際に「観測データ点に基づいてモデルが適切に適合している」ことを示しているため、混乱しています。モデルが適合するので、R 2乗とRSEの違いは何ですか? F統計は、予測変数と応答変数の間に関係があるかどうかの良い指標です。 3. RSEが高く、Rの2乗が低いように、NON LINEARである強い関係を示すF値を持つことができるのは本当ですか

3
回帰モデルの定義と区切り
恥ずかしいほど単純な質問ですが、以前にクロス検証で質問されたことはないようです: 回帰モデルの定義は何ですか? また、サポートの質問、 何でない回帰モデル? 後者に関しては、答えがすぐにはわからないトリッキーな例に興味があります。例えば、 潜在変数モデル(ARIMAやGARCHなど)はどうですか?

2
グループを分離するPCAコンポーネントの選択
私はPCAを使用して多変量データを診断するために頻繁に使用しました(数十万の変数と数十または数百のサンプルを含むオミックスデータ)。データは、いくつかのグループを定義するいくつかのカテゴリ独立変数を使用した実験から得られることが多く、対象のグループ間の分離を示すものを見つける前に、いくつかのコンポーネントをよく調べなければなりません。私はそのような差別的なコンポーネントを見つけるかなり原始的な方法を思いつきました、そして私は疑問に思います これが合理的/正当化できる範囲 同じことを達成するより良い方法があるかどうか。 これは探索的であることに注意してください。他の人を説得する前に、私は自分自身を説得したいと思います。関心のあるグループを明確に区別するコンポーネント(コントロールと治療など)があることがわかった場合、たとえそれらが応答の分散のわずかな部分を担っていたとしても、たとえば監視されたマシンからの結果よりもそれを信頼します学習。 これが私のアプローチです。Rのpca3dの「メタボ」サンプルデータセットを使用します。 アイデアは、各コンポーネントの分散が独立変数によってどの程度説明できるかを評価することです。このために、各コンポーネントの単純なモデルを計算し、R2R2R^2をメトリックとして使用して、コンポーネントを「最も興味深い」から「最も興味深い」の順に並べます。 require( pca3d ) # data on metabolic profiles of TB patients and controls data( metabo ) # first column is the independent variable pca <- prcomp( metabo[,-1], scale.= T ) # create a model for each component lm.m <- lm( pca$x ~ metabo[,1] ) …

2
マルチクラスパーセプトロンはどのように機能しますか?
数学の背景はありませんが、単純なパーセプトロンの仕組みを理解しており、超平面の概念を理解していると思います(幾何学的には、線が分離するように2つの点群を分離する3D空間の平面として想像します) 2D空間の2つの点群)。 しかし、1つの平面または1つの線が3D空間または2D空間の3つの異なる点群をどのように分離するかはわかりません。これは幾何学的に不可能です。 ウィキペディアの記事の対応するセクションを理解しようとしましたが、「ここでは、入力xと出力yは任意のセットから描画されます」という文で惨めに失敗しました。誰かが私にマルチクラスパーセプトロンを説明し、それが超平面のアイデアとどのように関係するのか、あるいはあまり数学的ではない説明を私に指し示すことができますか?

2
線形回帰と非線形回帰
理論的に指数関数的に関連する値xxxとセットがあります。yyy y=axby=axby = ax^b 係数を取得する1つの方法は、両側に自然対数を適用し、線形モデルを近似することです。 > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] これを取得する別の方法は、開始値の理論セットを指定して、非線形回帰を使用することです。 > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) 私のテストでは、2番目のアルゴリズムを適用すると、より良い理論関連の結果が表示されます。ただし、各方法の統計的な意味と意味を知りたいです。 どちらが良いですか?

1
混合効果モデルの予測:ランダム効果をどうするか?
この架空のデータセットを考えてみましょう。 set.seed(12345) num.subjects <- 10 dose <- rep(c(1,10,50,100), num.subjects) subject <- rep(1:num.subjects, each=4) group <- rep(1:2, each=num.subjects/2*4) response <- dose*dose/10 * group + rnorm(length(dose), 50, 30) df <- data.frame(dose=dose, response=response, subject=subject, group=group) lmeランダム効果モデルで応答をモデル化するために使用できます。 require(nlme) model <- lme(response ~ dose + group + dose*group, random = ~1|subject, df) predictこのモデルの結果を使用して、たとえば、グループ1の一般的な被験者の用量10に対する応答を取得します。 pred <- …

2
の値を使用して、重回帰分析で線形性の仮定をテストするにはどうすればよいですか?
以下のグラフは、「正常性」、「同相性」、「独立性」の仮定が確実に満たされている回帰テストの残差散布図です。「線形性」の仮定をテストする場合、グラフを見ると関係が曲線であると推測できますが、問題は次のとおりです。「R2線形」の値を使用して線形性の仮定をテストできますか?関係が線形であるかどうかを判断するための「R2 Linear」の値の許容範囲はどのくらいですか?線形性の仮定が満たされておらず、IVの変換も役に立たない場合はどうすればよいですか?!! テストの全結果へのリンクはこちらです。 散布図:

3
要因ANOVAでエラー用語を正当化する方法は?
多因子ANOVAに関するおそらく非常に基本的な質問。主効果A、B、および相互作用A:Bの両方をテストする双方向設計を想定します。タイプI SSでAの主効果をテストするとき、効果SSは差として計算されます。ここで、は切片のみのモデルの残差平方和です。そして、を追加ファクタAとモデルのRSS。私の質問は、エラー用語の選択に関するものです。R S S (1 )R S S (A )R SS(1 )− R SS(A )RSS(1)−RSS(A)RSS(1) - RSS(A)R SS(1 )RSS(1)RSS(1)R SS(A )RSS(A)RSS(A) このテストのエラー項が、主効果と相互作用の両方を含むフルモデルA + B + A:BのRSSから通常計算されることをどのように正当化しますか? FA= (R SS1− R SSA)/(dfR SS1− dfR SSA)R SSA + B + A :B/ dfR SSA + B + A :BFA=(RSS1−RSSA)/(dfRSS1−dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B F_{A} = \frac{(RSS_{1} …

1
反復測定計画のANOVAはどのように計算されますか:Rのaov()vs lm()
タイトルはそれをすべて言っており、私は混乱しています。以下は、Rで反復測定aov()を実行し、同等のlm()呼び出しと考えたものを実行しますが、異なる誤差残差を返します(ただし、平方和は同じです)。 aov()の残差と近似値は、モデルで使用されるものです。これらの平方和は、summary(my.aov)で報告されるモデル/残余平方和のそれぞれに加算されるためです。それでは、反復測定設計に適用される実際の線形モデルは何ですか? set.seed(1) # make data frame, # 5 participants, with 2 experimental factors, each with 2 levels # factor1 is A, B # factor2 is 1, 2 DF <- data.frame(participant=factor(1:5), A.1=rnorm(5, 50, 20), A.2=rnorm(5, 100, 20), B.1=rnorm(5, 20, 20), B.2=rnorm(5, 50, 20)) # get our experimental conditions conditions <- …

4
線形モデルと非線形モデルの区別
私は線形モデルと非線形モデルの特性に関するいくつかの説明を読みましたが、それでも手元のモデルが線形モデルであるか非線形モデルであるかがわからないことがあります。たとえば、次のモデルは線形ですか、それとも非線形ですか? yt=β0+β1B(L;θ)Xt+εtyt=β0+β1B(L;θ)Xt+εty_t=\beta_0 + \beta_1B(L;\theta)X_t+\varepsilon_t と: B(L;θ)=∑k=1Kb(k;θ)LkB(L;θ)=∑k=1Kb(k;θ)LkB(L;\theta)=\sum_{k=1}^{K}b(k;\theta)L^k LkXt=Xt−kLkXt=Xt−kL^kX_t=X_{t-k} ここで、は、次の形式の(減衰する)指数アルモン多項式関数を表します。b(k;θ)b(k;θ)b(k;\theta) b(k;θ)=exp(θ1k+θ2k2)∑Kk=1exp(θ1k+θ2k2)b(k;θ)=exp⁡(θ1k+θ2k2)∑k=1Kexp⁡(θ1k+θ2k2)b(k;\theta)=\frac{\exp(\theta_1 k+\theta_2k^2)}{\sum_{k=1}^{K}\exp(\theta_1k+\theta_2k^2)} 私の見解では、この項には重みが乗算されているだけなので、メイン方程式(最初の方程式)はに対して線形です。しかし、私は、重み関数(最後の式は)パラメータに対して非線形であると言うでしょうθ 1 ANS θ 2XtXtX_tθ1θ1\theta_1θ2θ2\theta_2。 私の主な機能が線形または非線形の場合、誰かが私に説明できますか?それは推定手順にとって何を意味しますか?線形または非線形最小二乗法を適用する必要がありますか?さらに、関数が非線形であるか線形であるかを明確に識別できる識別可能な特徴は何ですか?

3
線形回帰を実行しますが、ソリューションに特定のデータポイントを強制的に通過させます
一連のポイントで線形回帰を実行する方法を知っています。つまり、選択した多項式を特定のデータセットに(LSEの意味で)当てはめる方法を知っています。しかし、私が知らないのは、選択した特定のポイントを自分のソリューションに強制的に通過させる方法です。私はこれが以前に行われたことを見ましたが、どのように行われたかは言うまでもなく、プロシージャが何と呼ばれたか覚えていません。 非常に単純で具体的な例として、xy平面上に100個の点が散在しており、それらに任意の次数の多項式を当てはめることを選択したとしましょう。私はこの線形回帰の実行方法を非常によく知っています。ただし、x座標x=3x=3x=3、x=19x=19x=19、およびx=89x=89x=89(およびそれらに対応するy座標)で3つのデータポイントを通過するために、ソリューションを「強制」したいとしましょうもちろん)。 この一般的な手順は何と呼ばれ、どのように行われますか、また、注意する必要がある特定の落とし穴はありますか? 編集: これを行うための具体的な方法を探していることを付け加えます。共分散行列を直接反転するか、勾配降下法を使用して、2つの方法のいずれかで実際に線形回帰を実行するプログラムを作成しました。私が求めているのは、どのように、正確に、ステップバイステップで、特定の点を通過するように多項式解を強制するように、私がやったことをどのように変更するのですか? ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.