タグ付けされた質問 「sums-of-squares」

二乗和は、ANOVAのような正規分布に基づく統計モデルで重要な役割を果たします。

1
タイプI、タイプII、およびタイプIII ANOVAおよびMANOVAの解釈方法
私の主な質問は、タイプI(シーケンシャル)分散分析を実行するときに出力(係数、F、P)を解釈する方法です。 私の特定の研究問題はもう少し複雑なので、私の例をいくつかに分けます。まず、植物の成長(Y1)に対するクモの密度(X1)の影響に興味があり、囲いに苗木を植え、クモの密度を操作した場合、単純なANOVAまたは線形回帰でデータを分析できます。その後、ANOVAにタイプI、II、またはIIIの二乗和(SS)を使用したかどうかは関係ありません。私の場合、5つの密度レベルの複製が4つあるため、密度を因子または連続変数として使用できます。この場合、私はそれを連続的な独立(予測)変数として解釈することを好みます。RIでは、次を実行できます。 lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) anova関数を実行すると、後で比較できることを願っていますので、ここで奇妙な点を無視してください。出力は次のとおりです。 Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 さて、私がコントロールできなかった土壌中の無機窒素の開始レベルも、植物の成長に大きな影響を与えたのではないかと疑っているとしましょう。私はこの効果に特に興味はありませんが、それが引き起こす変動を潜在的に説明したいと思います。実際、私の主な関心はクモの密度の効果です(仮説:クモの密度の増加は植物の成長の増加を引き起こします-おそらく草食性昆虫の減少によるものですが、メカニズムではなく効果のみをテストしています)。無機Nの効果を分析に追加できます。 私の質問のために、相互作用密度* inorganicNをテストし、それが有意ではないふりをして、分析からそれを削除し、次の主な効果を実行します: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

7
コントラストコードを使用してRでType-III SS ANOVAを行う方法
-3、-1、1、3のコントラストで被験者間ANOVAを実行できるようにするRコードを提供してください。このような分析に適した平方和(SS)タイプに関して議論があることを理解しています。ただし、SASおよびSPSSで使用されるSSのデフォルトタイプ(タイプIII)は、私の地域の標準と考えられています。したがって、この分析の結果が、これらの統計プログラムによって生成されたものと完全に一致することを望みます。回答を受け入れるにはaov()を直接呼び出す必要がありますが、他の回答は投票される可能性があります(特に理解/使用が容易な場合)。 sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) 編集:私が要求しているコントラストは、単純な線形または多項式コントラストではなく、理論的予測、すなわちRosentalとRosnowによって議論されたコントラストのタイプによって導き出されたコントラストであることに注意してください。

2
ANOVAの変数の順序は重要ではありませんか?
多因子ANOVAで変数が指定される順序は違いを生じるが、多重線形回帰を行う場合、順序は重要ではないことを理解するのは正しいですか? そのため、測定された失血 yや2つのカテゴリ変数などの結果を想定します アデノイド切除術の方法 a、 扁桃摘出方法 b。 モデルy~a+bはモデルとは異なりますy~b+a(または、Rでの私の実装は示すようです)。 ここでの用語は、ANOVAは階層モデルであるということを理解するのは正しいですか?最初の要因に残差の分散を割り当てる前に、最初の要因にできる限り多くの分散を割り当てるためですか? 上記の例では、扁桃摘出術を行う前にアデノイド切除術を最初に行うので、階層は理にかなっていますが、固有の順序のない2つの変数があるとどうなりますか?

4
ezANOVAでタイプIIIの平方和を要求する引数を含める必要がありますか?
Rのezパッケージは、SPSSのような統計パッケージからRへの移行を支援する手段として開発されました。これは、(願わくば)ANOVAのさまざまなフレーバーの仕様を単純化し、SPSSのような出力(エフェクトサイズと仮定を含む)テスト)、他の機能の中で。このezANOVA()関数は主にのラッパーとして機能しますcar::Anova()が、現在のバージョンでezANOVA()はタイプIIの平方和のみを実装していcar::Anova()ますが、タイプIIまたは-IIIの平方和を指定できます。おそらく予想していたはずですが、いくつかのユーザーは、ezANOVA()これにより、ユーザーはタイプIIまたはタイプIIIを要求できます。私はそうすることをticし、以下に自分の推論を概説しましたが、この問題に関係する自分自身またはその他の推論に関するコミュニティの意見に感謝します。 に「SS_type」引数を含めない理由ezANOVA(): タイプI、II、およびIIIの平方和の違いは、データが不均衡な場合にのみ生じます。この場合、ANOVA計算をいじるよりも、さらにデータを収集することで不均衡を改善することにより多くの利点が得られると思います。 タイプIIとタイプIIIの違いは、高次効果によって修飾される低次効果に適用されます。(ただし、引数の複雑化の可能性については以下を参照してください) (1)と(2)が当てはまらないまれな状況(これ以上のデータ収集が不可能であり、研究者が現在私が想像できない修飾された主効果に有効な科学的関心を持っている場合)ezANOVA()ソースまたは採用car::Anova()自体は、III型テストを達成します。このように、タイプIIIテストを取得するために必要な追加の努力/理解は、自分が何をしているかを本当に知っている人だけがそのルートに行くことを保証できる手段として見ています。 現在、最新のタイプIIIリクエスターは、現存するが「重要ではない」高次効果が低次効果の平方和の計算にバイアスをかけることができる状況を考慮すると、引数(2)が損なわれることを指摘しました。そのような場合、研究者が高次効果に目を向け、それが「重要ではない」ことを見て、研究者に知られていない低次効果の解釈を試みようとすることは想像できます。私の最初の反応は、これは二乗和の問題ではなく、p値と帰無仮説検定の伝統に関する問題です。尤度比などの証拠のより明示的な測定値は、データと一貫性のあるサポートされているモデルのあいまいさを軽減する可能性が高いと思われます。しかし、私はしていません

1
SASとRのANOVAでのタイプIIIの二乗和の矛盾する結果
私は両方のアンバランス要因実験からのデータを分析していますSASとR。両方SASとR正方形の類似のタイプI和を提供するが、正方形のそのタイプIIIの和は互いに異なります。以下はSASとRコードと出力。 DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; CLASS T B; MODEL Y=T|B; RUN; SASのタイプI SS …
15 r  anova  sas  sums-of-squares 


1
LDAの代数。変数の線形判別分析と線形判別分析
どうやら、 フィッシャー分析の目的は、クラス内の分散を最小限に抑えながら、クラス間の分離を同時に最大化することです。したがって、変数の識別力の有用な尺度は、対角量与えられます。Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html p x pBetween(B)およびWithin-Class(W)行列のサイズ()は、入力変数の数で与えられることを理解していますp。これを考えると、単一変数の「識別力の有用な尺度」にするにはどうすればよいでしょうか。行列BとWを構築するには少なくとも2つの変数が必要であるため、それぞれのトレースは複数の変数を表します。Bii/WiiBii/WiiB_{ii}/W_{ii} 更新:Bii/WiiBii/WiiB_{ii}/W_{ii}は、和が暗示されるトレース上のトレースではなく、マトリックス要素BiiBiiB_{ii}を割ったものだと考えるのは正しいWiiWiiW_{ii}でしょうか?現在、それが式と概念を調和させることができる唯一の方法です。


2
車を使用して繰り返し測定ANOVAの特定のコントラストを指定する方法は?
RでAnovaを繰り返し測定した後、そのデータセットでいくつかの特定のコントラストを実行しようとしています。正しいアプローチはAnova()、車のパッケージから使用することだと思い ます。 データの?Anova使用 から得られた例で私の質問を説明しましょうOBrienKaiser(注:例から性別因子を省略しました): 被験者因子、治療(3レベル:コントロール、A、B)、および2反復の間の1つのデザインがあります-測定(被験者内)要因、フェーズ(3レベル:事前テスト、事後テスト、フォローアップ)および時間(5レベル:1〜5)。 標準のANOVAテーブルは次のようになります(example(Anova)とは異なり、タイプ3の二乗和に切り替えました。これが私の分野の望みです)。 require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), c(5, 5, 5)), levels=c("pretest", "posttest", "followup")) hour <- ordered(rep(1:5, 3)) idata <- data.frame(phase, hour) mod.ok <- lm(cbind(pre.1, pre.2, pre.3, pre.4, pre.5, post.1, post.2, post.3, post.4, post.5, fup.1, fup.2, fup.3, fup.4, fup.5) ~ treatment, data=OBrienKaiser) av.ok <- Anova(mod.ok, idata=idata, …

1
線形回帰の二乗和誤差の分布?
サンプル分散の分布 これは、は行列形式 xAx '(A:対称)で表すことができ、x'QDQ'x(Q:正規直交、D:対角行列)でも表すことができます。 ∑(Xi−X¯)2σ2∼χ2(n−1)∑(Xi−X¯)2σ2∼χ(n−1)2 \sum\frac{(X_i-\bar{X})^2}{\sigma^2}\sim \chi^2_{(n-1)} ∑(Xi−X¯)2n−1∼σ2n−1χ2(n−1)∑(Xi−X¯)2n−1∼σ2n−1χ(n−1)2 \sum\frac{(X_i-\bar{X})^2}{n-1}\sim \frac{\sigma^2}{n-1}\chi^2_{(n-1)} (X−X¯)2(X−X¯)2(X-\bar{X})^2xAx′xAx′xAx'x′QDQ′xx′QDQ′xx'QDQ'x 何約∑(Yi−β^0−β^1Xi)2∑(Yi−β^0−β^1Xi)2\sum(Y_i-\hat{\beta}_0-\hat{\beta}_1X_i)^2仮定が与えられると、(Y−β0−β1X)∼N(0,σ2)(Y−β0−β1X)∼N(0,σ2)(Y - \beta_0 - \beta_1X)\sim \mathcal{N}(0, \sigma^2)? I図∑(Yi−β^0−β^1Xi)2σ2∼χ2(n−2).∑(Yi−β^0−β^1Xi)2σ2∼χ(n−2)2.\sum\frac{(Y_i-\hat{\beta}_0-\hat{\beta}_1X_i)^2}{\sigma^2}\sim \chi^2_{(n-2)}. しかし、それを証明したり、見せたりする方法はわかりません。 \ chi ^ 2 _ {(n-2)}として正確に配布されていχ2(n−2)χ(n−2)2\chi^2_{(n-2)}ますか?

2
T分布確率変数の二乗和の分布
T分布確率変数の二乗和の分布と、テール指数調べています。Xがrvである場合、フーリエ変換であるは、畳み込み前の正方形の解を与えます。 αα\alphaX2X2X^2F(t)F(t)\mathscr{F}(t)F(t)nF(t)n\mathscr{F}(t)^nF(t)=∫∞0exp(itx2)⎛⎝⎜⎜⎜(αα+x2)α+12α−−√ B(α2,12)⎞⎠⎟⎟⎟dxF(t)=∫0∞exp⁡(itx2)((αα+x2)α+12α B(α2,12))dx\mathscr{F}(t)=\int_0^{\infty } \exp \left(i\, t\, x^2\right)\left(\frac{\left(\frac{\alpha }{\alpha +x^2}\right)^{\frac{\alpha +1}{2}} }{\sqrt{\alpha }\ B\left(\frac{\alpha }{2},\frac{1}{2}\right)}\right) \, \mathrm{d}x で、溶液をフーリエ逆変換を行うと逆することができるが、扱いにくいと不可能である。したがって、問題は、標本分散の分布またはT分布確率変数の標準偏差で作業が行われたかどうかです。(Gaussianのカイ二乗とは、StudentTにとってのものです)。ありがとうございました。F(t )nα=3α=3\alpha=3F(t)nF(t)n\mathscr{F}(t)^n (考えられる解決策)はフィッシャー分布であるため、フィッシャー分布変数の合計を確認します。 F (1 、α )X2X2X^2F(1,α)F(1,α)F(1,\alpha) (可能な解決策)特性関数から、合計された平均 は、分布の最初の2つのモーメントが存在する場合、それらのモーメントは同じです。したがって、uを平方根とし、確率分布内で変数を変更すると、n個のサンプルのT変数の標準偏差の密度は、次のように近似できます X 2 F (N 、α )G (U )= 2 α α / 2 N N / 2 UはN - 1 ( α + …

2
カテゴリー変数間の共線性
連続予測子に関して共線性については多くありますが、カテゴリカル予測子についてはそれほど多くはありません。以下に示すこのタイプのデータがあります。 最初の要因は遺伝的変数(対立遺伝子数)、2番目の要因は疾患カテゴリーです。明らかに遺伝子は病気に先行し、診断につながる症状を示す際の要因です。ただし、タイプIIまたはIIIの二乗和を使用した定期的な分析は、SPSSを使用した心理学で一般的に行われるように、効果を逃します。タイプIの二乗和分析では、次数に依存するため、適切な次数を入力するとそれが検出されます。さらに、タイプIIまたはIIIで十分に特定されていない、遺伝子に関連しない疾患プロセスの余分なコンポーネントがある可能性があります。以下のanova(lm1)とlm2またはAnovaを参照してください。 データの例: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, iv2)) # quick …

3
線形重回帰式のすべてのIV間の共有分散はどこにありますか?
線形重回帰式で、ベータの重みが他のすべてのIVの寄与に加えて個々の独立変数の寄与を反映している場合、回帰式では、DVを予測するすべてのIVが共有する分散です。 たとえば、下に表示されているベン図(およびここのCVの「about」ページから取得したもの:https : //stats.stackexchange.com/about)のラベルが3 IVと1 DVに変更された場合、アスタリスクのある領域が入ります。重回帰式に?

1
Anovaの結果で使用される平方和のタイプが論文でほとんど報告されないのはなぜですか?
統計における私の短い経験に続いて、ANOVA結果を取得するために使用される二乗和のタイプ(タイプI、II、III、IV ...)は、テスト結果(特に、相互作用と欠落のあるモデル)に劇的な違いをもたらす可能性があるデータ)。しかし、それを報告する論文はまだ見ていません。どうしてこんなことに? (統計自体ではなく)何らかの方法でそれを報告する紙の例、またはそれが一般的ではない理由を提供していただければ幸いです。

2
線形回帰:*なぜ*二乗和を分割できるのか?
この投稿は、2変量線形回帰モデルます。私は常に、総二乗和(SSTO)を誤差の二乗和(SSE)とモデルの二乗和(SSR)に信頼性をもって分割してきましたが、一度考え始めたら、わかりません。なぜ機能するのか ...Yi=β0+β1xiYi=β0+β1xiY_i = \beta_0 + \beta_1x_i 私が理解している部分: yiyiy_i:yの観測値 y¯y¯\bar{y}:観測されたすべての sの平均yiyiy_i y^iy^i\hat{y}_i:特定の観測値のxに対するyの適合/予測値 yi−y^iyi−y^iy_i - \hat{y}_i:残差/エラー(平方され、すべての観測値に対して合計された場合、これはSSEです) y^i−y¯y^i−y¯\hat{y}_i - \bar{y}:モデルフィッティングされた値が平均とどの程度異なるか(平方され、すべての観測値に対して合計された場合、これはSSRです) yi−y¯yi−y¯y_i - \bar{y}:観測された値が平均とどの程度異なるか(すべての観測で保証され、合計された場合、これはSSTOです)。 何も二乗せずに、単一の観測で理由を理解できます。そして、理由を理解できます。すべての観測値を合計したい場合は、それらを2乗する必要があります。そうしないと、合計が0になります。(yi−y¯)=(y^i−y¯)+(yi−y^i)(yi−y¯)=(y^i−y¯)+(yi−y^i)(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i) 理由がわかりません(例:SSTO = SSR + SSE)。あなたが、状況があればということであるように思わは、、ない。なぜそうではないのですか? A = B + C 、A 2 = B 2 + 2 B C …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.