統計とビッグデータ prediction-interval

6

線形回帰での予測区間について、あなたはまだ使用E [ Yを| X ] = ^ β 0 + β 1 xが間隔を生成します。また、これを使用してE [ Y | x 0 ]。2つの違いは何ですか？E^[ Y| x]= β0^+ β^1バツE^[Y|バツ]=β0^+β^1バツ\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}xE[ Y| バツ0]E[Y|バツ0]E[Y|x_0]

80 regression confidence-interval predictive-models prediction-interval

8

既存の変数と定義された相関関係を持つランダム変数を生成します

シミュレーション研究のために、既存の変数に対する事前定義された（母集団）相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。アイデアや既存の機能へのリンクを歓迎します！結論：さまざまなソリューションで、2つの有効な答えが出ました。カラカルによるR スクリプト。事前定義された変数との正確な（サンプル）相関を持つランダム変数を計算します事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加：質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

2

線形回帰の予測値の信頼区間の形状

線形回帰の予測値の信頼区間は、予測値の平均付近で狭くなり、予測値の最小値と最大値付近で太くなる傾向があることに気付きました。これは、次の4つの線形回帰のプロットで見ることができます。これは、予測子のほとんどの値が予測子の平均値に集中しているためだと当初考えました。ただし、予測変数の多くの値が最小値の周りに集中している左下の線形回帰のように、予測変数の極値の近くに多くの値が集中していても、信頼区間の狭い中央が発生することに気付きました予測子。線形回帰の予測値の信頼区間が中間で狭く、極端に太くなる傾向がある理由を説明できる人はいますか？

69 regression confidence-interval linear-model standard-error prediction-interval

6

推定と予測の違いは何ですか？

たとえば、過去の損失データがあり、極端な変位値（Value-at-RiskまたはProbable Maximum Loss）を計算しています。得られた結果は、損失を推定するか、損失を予測するためのものですか？どこで線を引くことができますか？私は混乱しています。

46 estimation predictor prediction-interval

2

Rのlmer（）混合効果モデルの予測間隔

lmer（）モデルからの予測の周りの予測区間を取得したい。これに関する議論を見つけました。 http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq しかし、それらはランダム効果の不確実性を考慮していないようです。以下に具体例を示します。私は金の魚をレースしています。過去100レースのデータがあります。RE推定値とFE推定値の不確実性を考慮して、101番目を予測したい。魚のランダムインターセプト（10種類の魚があります）と、重量の固定効果（重い魚が少ないほど速い）を含めています。 library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat <- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 <- lmer(time …

37 r mixed-model prediction prediction-interval lme4-nlme

1

ブートストラップ予測間隔

線形回帰または他の回帰法（k最近傍、回帰木など）から得られたポイント予測の予測間隔を計算するために利用可能なブートストラップ手法はありますか？どういうわけか、ポイント予測（たとえば、kNN回帰の予測区間を参照）を単にブートストラップするために時々提案される方法は、予測区間ではなく信頼区間を提供していると感じています。 Rの例 # STEP 1: GENERATE DATA set.seed(34345) n <- 100 x <- runif(n) y <- 1 + 0.2*x + rnorm(n) data <- data.frame(x, y) # STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL fit <- lm(y ~ x) plot(fit) # not shown but looks fine with respect to all relevant …

29 bootstrap prediction-interval

1

線形回帰予測間隔

データポイントの最適な線形近似（最小二乗を使用）がラインy=mx+by=mx+by=mx+b場合、近似誤差を計算するにはどうすればよいですか？観測値と予測値の差の標準偏差を計算するei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)と、実際の（観測されていない）値yr=real(x0)yr=real(x0)y_r=real(x_0)は区間に属します[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]（）確率が約68％で、正規分布を仮定していますか？yp=mx0+byp=mx0+by_p=mx_0+b 明確にするために：関数をいくつかの点評価することで観察しました。これらの観測値を線に適合させます。私が観察しなかったについては、大きさを知りたいと思います。上記の方法を使用して、prob でと言うのは正しいですか。〜68％？X I L （X ）= M X + B 、X 0、F （X 0）- L （X 0）、F （X 0）∈ [ L （X 0）- σ 、L （X 0）+ σ ]f(x)f(x)f(x)xixix_il(x)=mx+bl(x)=mx+bl(x)=mx+bx0x0x_0f(x0)−l(x0)f(x0)−l(x0)f(x_0)-l(x_0)f(x0)∈[l(x0)−σ,l(x0)+σ]f(x0)∈[l(x0)−σ,l(x0)+σ]f(x_0) \in [l(x_0)-\sigma, l(x_0)+\sigma]

24 regression normal-distribution least-squares prediction-interval

1

OLS重回帰の予測間隔を計算する方法は？

重回帰の予測区間を計算する代数表記法は何ですか？馬鹿げているように聞こえますが、この代数的表記を見つけるのに苦労しています。

24 multiple-regression least-squares prediction-interval

2

予測推論には、どのような非ベイジアン手法がありますか？

ベイジアン推論では、未知のパラメーターを統合することにより、将来のデータの予測分布が導出されます。これらのパラメーターの事後分布を統合すると、事後予測分布が得られます。これは、既に観測されたデータを条件とする将来のデータの分布です。パラメーター推定値の不確実性を考慮する予測推論の非ベイジアン手法は何ですか（つまり、最尤推定値や密度関数に戻るものを単にプラグインしない）。線形回帰後の予測間隔の計算方法は誰もが知っていますが、計算の背後にある原理は何ですか？他の状況でそれらをどのように適用できますか（たとえば、データからレートパラメーターを推定した後に新しい指数変量の正確な予測間隔を計算する）？

22 prediction inference prediction-interval

9

ニューラルネットワークの予測の信頼性を判断する方法

私の質問を説明するために、たとえば入力にはある程度のノイズがあり、出力にはないトレーニングセットがあるとします。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ここで、出力は、ノイズがない場合の入力配列の勾配です（実際の勾配ではありません）。ネットワークをトレーニングした後、特定の入力に対して出力は次のようになります。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

22 regression machine-learning neural-networks confidence-interval prediction-interval

1

ロジスティック回帰の予測間隔の計算

ロジスティック回帰推定の予測間隔を生成する方法を理解したいと思います。コレットのモデリングバイナリデータのモデリング、第2版p.98-99 の手順に従うことをお勧めしました。この手順を実装してRと比較した後predict.glm、この本は予測区間ではなく信頼区間を計算する手順を示していると思います。 Collettからの手順の実装を、と比較してpredict.glm以下に示します。知りたいのですが、ここから信頼区間ではなく予測区間を作成する方法を教えてください。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

20 r regression confidence-interval logistic prediction-interval

1

交差検定（CV）に基づく予測間隔

教科書やyoutubeの講義では、ブースティングなどの反復モデルについて多くのことを学びましたが、予測間隔の導出については何も見ませんでした。クロス検証は次の目的で使用されます。モデルの選択：さまざまなモデルを試して、最適なモデルを選択します。ブーストの場合、CVを使用してチューニングパラメーターを選択します。モデル評価：選択したモデルのパフォーマンスを推定しますモデル評価にはいくつかのパラメーターが重要です。そのうちの1つは予想される予測エラーです。クロス検証は、本「統計的学習の要素」で詳しく説明されているように、予測誤差の適切な推定値を提供します。しかし、予測間隔を構築するために予想される予測誤差をどのように使用するのでしょうか？たとえば、家の価格を予測する場合、200.000€の家に比べて500.000€の家の予測間隔は長くなります。相互検証を使用してこれらの予測間隔を推定するにはどうすればよいですか？

19 cross-validation boosting prediction-interval

3

線形モデルでの予測限界の式の取得（例：予測間隔）

次の例を見てみましょう。 set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) これにより、OLS回帰を使用して、x1およびx2に基づいてyのモデルが作成されます。与えられたx_vecのyを予測したい場合は、から取得する式を使用できsummary(fit)ます。ただし、yの下位予測と上位予測を予測する場合はどうでしょうか。（所定の信頼レベル）。それでは、式をどのように構築しますか？

18 r regression predictive-models prediction-interval

1

LOESSの予測間隔の計算方法

RのLOESSモデルを使用して適合させたデータがあり、これを提供します。データには1つの予測子と1つの応答があり、不均一です。信頼区間も追加しました。問題は、区間がラインの信頼区間であるのに対して、予測区間に興味があることです。たとえば、下部パネルは上部パネルよりも可変性がありますが、これは間隔でキャプチャされません。この質問はやや関連しています：多項式回帰からの信頼帯、特に@AndyWによる答えを理解しますが、彼の例では、にinterval="predict"存在する比較的単純な引数を使用していますがpredict.lm、にはありませんpredict.loess。したがって、非常に関連する2つの質問があります。 LOESSのポイントごとの予測間隔を取得するにはどうすればよいですか？その間隔をキャプチャする値をどのように予測できますか？つまり、最終的に元のデータのように見える一連の乱数を生成できますか？ LOESSを必要とせず、他の何かを使用する必要がある可能性がありますが、自分のオプションに慣れていません。基本的には、ローカル回帰または多重線形回帰を使用してラインに適合し、ラインのエラー推定値に加えて、さまざまな説明変数のさまざまな分散も提供するため、特定のx値で応答変数（y）の分布を予測できます。

17 r regression prediction-interval loess

1

非線形回帰の予測バンドを計算する方法は？

Prism のヘルプページには、非線形回帰の予測バンドの計算方法に関する以下の説明があります。長い引用を許してください。しかし、私は2番目の段落（G|xG|xG|xがどのように定義され、dY/dPdY/dPdY/dPが計算されるかを説明しています）には従いません。どんな助けも大歓迎です。信頼帯と予測帯の計算はかなり標準的です。Prismが非線形回帰の予測帯域と信頼帯域を計算する方法の詳細については、こちらをお読みください。まず、G | xを定義します。これは、Xの特定の値でのパラメーターの勾配であり、パラメーターのすべての最適値を使用します。結果は、パラメーターごとに1つの要素を持つベクトルです。各パラメーターについて、dY / dPとして定義されます。Yは、Xの特定の値とすべての最適なパラメーター値が与えられた曲線のY値であり、Pはパラメーターの1つです。 G '| xは転置された勾配ベクトルであるため、値の行ではなく列です。 Covは共分散行列です（最後の反復からの逆ヘッセ行列）。これは、行と列の数がパラメーターの数と等しい正方行列です。行列の各項目は、2つのパラメーター間の共分散です。 c = G '| x * Cov * G | xを計算します。結果は、Xの任意の値に対して単一の数値です。信頼帯域と予測帯域は、最適曲線に中心が置かれ、曲線の上下に等しい量だけ広がります。信頼帯は、曲線の上下に次のように拡張されます。= sqrt（c）* sqrt（SS / DF）* CriticalT（Confidence％、DF）予測バンドは、曲線の上下にさらに距離を延長します。= sqrt（c + 1）* sqrt（SS / DF）* CriticalT（Confidence％、DF）

15 nonlinear-regression prediction-interval

タグ付けされた質問 「prediction-interval」

タグ付けされた質問「prediction-interval」