データの不確実性に基づいて線形回帰勾配の不確実性を計算する


12

データの不確実性に基づいて線形回帰勾配の不確実性を計算する方法(おそらくExcel / Mathematicaで)?

例: プロットの例 データポイント(0,0)、(1,2)、(2,4)、(3,6)、(4,8)、...(8、16)がありますが、各y値には不確実性は4です。点が関数y = 2xと完全に一致するため、私が見つけたほとんどの関数は不確実性を0として計算します。ただし、図に示すように、y = x / 2は点にも一致します。これは誇張された例ですが、私が必要としているものを示していることを願っています。

編集:もう少し説明しようとすると、例のすべての点に特定の値のyがありますが、それが本当かどうかはわかりません。たとえば、最初のポイント(0,0)は、実際には(0,6)または(0、-6)またはその間の任意の値になります。これを考慮に入れる一般的な問題のいずれかにアルゴリズムがあるかどうかを尋ねています。この例では、点(0,6)、(1,6.5)、(2,7)、(3,7.5)、(4,8)、...(8、10)は依然として不確かさの範囲にあります。したがって、これらは正しい点である可能性があり、それらの点を結ぶ線は方程式y = x / 2 + 6を持ちますが、不確実性を考慮しないことから得られる方程式は方程式y = 2x + 0を持ちます。したがって、kの不確実性は1.5で、nは6です。

TL; DR:図には、最小二乗法を使用して計算されたy = 2xの線があり、データに完全に適合しています。私はy = kx + nのkとnがどれだけ変化するかを見つけようとしていますが、y値の不確実性がわかっている場合でもデータに適合します。私の例では、kの不確実性は1.5で、nは6です。画像には、「最適な」フィット線と、ポイントにほとんどフィットしない線があります。


1
不確実性がある場合は、バイアスがあるため、通常の線形回帰を使用しないでください(不確実性が小さいとバイアスが小さくなるため、あまり気にしなくてもかまいません)。yの不確実性は常に一定ですか、それとも変動しますか?どのようにあなたのラインに合っていますか?x
Glen_b-2013

私は主にyの不確実性について尋ねています。しかし、ソリューションがxの不確実性も考慮に入れれば幸いです。一般にそれらは定数ではありませんが、定数であることを必要とするソリューションでも問題ありません。優れています。
bedanec 2013

「不確かさ」の値が、実験を繰り返した場合に何が起こるかとどのように関連しているのか、可能な限り明確に説明できますか?つまり、正確には、これらの不確実性は何を表していますか?
Glen_b-2013

たとえば、yが重みであるが、デジタルスケールの精度が+ -6の場合のみエラー。(これらの値の最良の例ではありませんが、たとえば、スケールが255gを示している場合、255.0または255.9になる可能性があります)
bedanec

それが私の質問の最初の文にどのように関係するか説明していただけますか?
Glen_b-2013

回答:


8

kny=kx+ny

y100(1α)(k,n)(kxi+nyi)2/σi2<χd,α2σiyid(x,y)χd,α2αd

yiyi(k,n)204(k2)2+72n(k2)+9n2=152.271

ここに画像の説明を入力してください


4

Pythonでこの単純なコードを使用して、単純な直接サンプリングを行いました。

import random
import numpy as np
import pylab
def uncreg(x, y, xu, yu, N=100000):
    out = np.zeros((N, 2))
    for n in xrange(N):
        tx = [s+random.uniform(-xu, xu) for s in x]
        ty = [s+random.uniform(-yu, yu) for s in y]
        a, b = np.linalg.lstsq(np.vstack([tx, np.ones(len(x))]).T, ty)[0]
        out[n, 0:2] = [a, b]
    return out
if __name__ == "__main__":
    P = uncreg(np.arange(0, 8.01), np.arange(0, 16.01, 2), 0.1, 6.)
    H, xedges, yedges = np.histogram2d(P[:, 0], P[:, 1], bins=(50, 50))
    pylab.imshow(H, interpolation='nearest', origin='low', aspect='auto',
                 extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]])

そしてこれを得た: 直接サンプリング結果のヒストグラム

もちろん、必要なPデータをマイニングしたり、不確実性分布を変更したりできます。


0

私は以前同じ狩りをしていたので、これは出発点として役立つかもしれないと思います。excelマクロ関数は、表形式の点に基づいた線形フィット項とその不確実性、および両方の縦座標の各点の不確実性を提供します。多分それが基づいている紙を調べて、それを別の環境で実装したり、変更したりするかどうかを決定します。マクロがどのように注釈されているかを確認するために開いていません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.