異なるデータセット間での同じモデルの回帰係数の比較


12

同じ冷凍システムで使用された2つの冷媒(ガス)を評価しています。評価用の飽和吸引温度()、凝縮温度()、およびアンペア数()のデータがあります。データには2つのセットがあります。第1冷媒()および第2冷媒()。回帰分析には、線形多変量(SD)3次多項式モデルを使用しています。2番目の冷媒が消費する電流の平均が、アンペア数(またはパフォーマンスの比較と同様の基準)をパーセンテージでどの程度下回っているのか、またはパーセンテージで示しているのかを確認します。D Y R 1 R 2 S DSDYR1R2SD

私の最初の考えは:

  1. 使用するモデルを決定:Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3
  2. ベースラインデータ(R_1)から係数(bi)を導き出します。R1
  3. これらの係数を使用して、R_2データセット内の各SDについて、予想される各アンプドロー(\ hat {Y})を計算してから平均します。R2Y^
  4. Y^平均とR_2データの実際の平均電流(Y2)を比較します。R2
  5. percent (%) change=(Y2Y^)/Y^

ただし、2番目の冷媒の熱特性はわずかに異なり、冷凍システムにわずかな変更が加えられたため(TXVおよび過熱調整)、この「ベースライン比較方法」は正確ではないと思います。

私の次の考えは、2つの別々の回帰分析を行うことでした:

Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23

次に、飽和吸引温度(S)について、係数(a1b1)を次のように比較し ます

% change=b1a1a1

ただし、繰り返しになりますが、これらの係数は異なる方法で重み付けする必要があります。したがって、結果は歪んでいます。

z検定を使用して、係数の重み付けの違いを判断できると思いますが、出力の意味を完全に理解しているとは思いません。ただし、それでも全体的な目標であるパフォーマンスメトリックは得られません。z=(a1b1)/SEa12+SEb12)


1
1.多項式モデルは、係数が線形であるため、線形モデルです。2.私はあなたの質問を理解しようとしています。R1とR2が使用された時間の間に冷凍システムが変更された場合、それらは実際には「同じ冷凍システム」ではありません(1行目)。3. 2番目のアプローチでSの係数を比較し始めたのはなぜですか?4.レベルR1およびR2の共変量「冷媒」を多項式近似に(多分相互作用ありで)導入することを検討しましたか?その係数が質問に答えるかもしれません。
qoheleth 2014年

@qoheleth 1.私があなたの考えに沿っているかどうかわからない...係数は常に線形です-それは数値です。そのとき、係数は線形にならないでしょうか?2.正解です。冷凍システムはわずかに変更されていますが、両方の冷媒の出力温度が同じになるようにするためだけです-"apples to apples"。3.「S」は、この特定の比較で関心のある唯一の変数です。4.共変量/相互作用変数法について読みましたが、そのような方法を使用した係数の意味を理解できません。出力の解釈について詳しく教えてください。ありがとうございました。
gth826a 2014年

1.統計的な観点から、推定しているものの線形性が重要なので、多項式モデルは線形です。非線形モデルの例は、mitscherlich関数y = alpha(1-exp(beta-lambda * X))です。ここで、alpha / beta / lambdaは、私たちが推定しているものです。3.実際に何をテストしようとしていますか?Sの係数ですか?またはY?Sの場合、なぜ最初の比較が\ hat {Y}で比較されるのですか?
qoheleth 14年

Yハットは次のようになります。1番目のデータセットから導出された係数で使用される2番目のデータセットからの実際のS&D。この方法は、以前の機器のエネルギー消費量を、改造/改造/改造などの後のエネルギー消費量と比較するときの「パフォーマンス契約」エネルギー分析に一般的です。方程式は次のようになります。エネルギー消費= y-hat =ベースロード+エネルギー/度日*度日...ここで、エネルギー/度日はベースライン回帰分析から導出された係数であり、度日は改修後のものです。 。このプロジェクトシナリオを実行しなかった場合、「何を消費しましたか?」
gth826a 2014年

1
したがって、最終的にはYを比較する必要があるようです。高次の項(S ^ 2、S ^ 3など)が存在する場合、係数の変化%の計算を忘れてしまいますが、係数はあなたが考えるものではありません彼らです。Yに焦点を当てます。私にとって不明確な質問は、R2のS&DはR1のS&Dとは異なることを意味しているということですか。そうでない場合は、冷媒(r1またはr2)と呼ばれる追加の共変量(X変数)を使用して、1つのモデルを結合データセットに単純に適合させ、モデルが適切であると仮定して、その係数を調べて推論を行うことができます。
qoheleth 14

回答:


2

ここでの理想的な気体の法則から、比例モデルを示唆しています。ユニットが絶対温度であることを確認してください。比例結果を求めることは、比例誤差モデルを意味します。おそらく考えてください。多重線形回帰の場合、対数を取ることでを使用できます。Y、D、Sの値の場合、これはになります。ここで、添え字は「対数」を意味します。これで、これは使用している線形モデルよりもうまく機能する可能性があり、答えは相対的なエラータイプになります。Y = a D b S c ln Y = ln a + b ln D + c ln S Y l = a l + b D l + c S l lPV=nRTY=aDbScln(Y)=ln(a)+bln(D)+cln(S)Yl=al+bDl+cSll

使用するモデルのタイプを確認するには、モデルを1つ試し、残差が等分散性であるかどうかを確認します。そうでない場合は、バイアスモデルがあります。次に、上記のように、対数のモデル化、xまたはyデータの1つ以上の逆数、平方根、二乗、累乗などのように、残差が等分散になるまで他のことを行います。モデルが等分散残差を生成できない場合は、複数の線形Theil回帰を使用し、必要に応じて打ち切りを行います。

データがy軸にどの程度正常に分布しているかは必須ではありませんが、外れ値は回帰パラメーターの結果を著しく歪める可能性があり、しばしば歪めます。等分散性が見つからない場合は、通常の最小二乗を使用せず、他のタイプの回帰を実行する必要があります(重み付き回帰、Theil回帰、xの最小二乗、デミング回帰など)。また、エラーは連続して相関するべきではありません。

出力の意味:、そうでない場合もあります関連。これは、分散の合計が2つの独立した分散の合計であることを前提としています。言い換えると、独立性はプロットの直交性(垂直性)です。つまり、全体の変動性(分散)は、ピタゴラスの定理に従います。これは、データの場合とそうでない場合があります。その場合、統計は、相対距離、つまり平均の差(距離)をピタゴラス、AKAベクトル、標準誤差(SE)で割ったものであり、標準偏差(SD)を割ります。 xyH=+z=(a1b1)/SEa12+SEb12)x,y ZH=+A2+O2zN、SE自体は距離です。次に、ある距離を別の距離で割ると、それらが正規化されます。つまり、平均の差が合計(標準)エラーで除算され、ND(0,1)を適用して確率を求めることができる形式になります。

さて、測定値が独立していない場合はどうなりますか?どのようにしてそれをテストできますか?直角ではない三角形は、として辺を追加することをジオメトリから覚えているかもしれませんが、そうでない場合ここであなたの記憶をリフレッシュしてください。つまり、軸間に90度以外の角度がある場合、その角度を合計距離の計算に含める必要があります。まず、相関とは何か、標準化された共分散を思い出してください。合計距離および相関場合、これはσ T ρ A B σ 2 T = σ 2 A + σ 2 B - 2 σ A σ B ρ A BC2=A2+B22ABcos(θ),θ=(A,B)σTρA,BσT2=σA2+σB22σAσBρA,B。言い換えると、標準偏差が相関している場合(ペアごとなど)、それらは独立していません。


「使用するモデルのタイプを確認して、残差が均一であるかどうかを確認してください」そうですね...ただし、この仮定をまったく行わないこと、およびそれが有効であっても、それが確実に行われることはありません。あなたは「良い」モデルを持っています。
Repmat 2016年

OLSを使用し、残差が不均一である場合、確かに偏ったモデルがあります。ここに示すように、ホモセダスティシティはOLSの要件です。良いモデルを持っていることは避けるように、他の条件を必要と省略可変バイアスを、しかし持つシリアル無相関誤差を、そして従属変数対モデルの直線。
カール

残差が不等分散性である、偏りのない、または一貫性のあるモデル(推定)を使用できます。これは、通常の推論手順が機能しないことを意味するだけです
Repmat

異分散性は勾配を平坦化し、外れ値がこれを修正したとしても、ペナルティは大きな信頼区間と粗末なモデルになります。そのようなモデルは使用しませんが、はい、お粗末なモデルを作成できます。医学文献はそれらでいっぱいです。
カール

コメントの最初の部分は明らかに間違っています。それが何を意味するのかもよくわかりません。
Repmat 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.