統計とビッグデータ regression

2

ARIMAエラーを伴う回帰（動的回帰）を推論に使用する場合の定常性の要件は何ですか？具体的には、非定常連続結果変数、非定常連続予測変数およびダミー変数処理シリーズます。治療が、変化がゼロから2標準誤差以上離れた結果変数の変化と相関していたかどうかを知りたい。yyyバツaバツax_aバツbバツbx_b ARIMAエラーモデリングを使用して回帰を実行する前に、これらのシリーズを区別する必要があるかどうかはわかりません。別の質問への回答で、IrishStatは、while the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.それを追加することを続けていると述べていunwarranted usage [of differencing] can create statistical/econometric nonsenseます。 SASユーザーガイドを示唆している、それはそう長く残差が非定常されているような差分せずに非定常シリーズへのARIMAエラーのフィット回帰モデルに罰金であること：定常性の要件はノイズシリーズに適用されることに注意してください。入力変数がない場合、応答シリーズ（差分の後、平均項を引いたもの）とノイズシリーズは同じです。ただし、入力がある場合、入力の効果が除去された後のノイズ系列は残差です。入力系列が静止している必要はありません。入力が非定常の場合、ノイズプロセスが定常的である場合でも、応答シリーズは非定常になります。非定常入力シリーズを使用する場合、まずエラーのARMAモデルを使用せずに入力変数を近似し、次にノイズ部分のARMAモデルを特定する前に残差の定常性を考慮することができます。一方、Rob HyndmanとGeorge Athanasopoulosは次のように主張しています。 ARMAエラーを含む回帰を推定する際の重要な考慮事項は、モデル内のすべての変数が最初に定常でなければならないことです。そのため、最初にytとすべての予測子が静止しているように見えることを確認する必要があります。これらのいずれかが非定常であるときにモデルを推定すると、推定係数が不正確になる可能性があります。（x1 、t、… 、xk 、t）（バツ1、t、…、バツk、t）(x_{1,t},\dots,x_{k,t}) ytyty_t これらのアドバイスは相互に排他的ですか？適用されたアナリストはどのように進めますか？

16 regression time-series arima stationarity

4

初心者向けの一般化線形モデルに関する最高の本は何ですか？

私はまだ一般化線形モデルにかなり慣れていないので、これまでに取り上げたほとんどのGLMテキストの多くの表記法に苦労しています。読みやすくするために非常に人気のあるGLMの本はありますか？

16 regression generalized-linear-model references

2

回帰で日付変数を使用するのは理にかなっていますか？

Rで日付形式の変数を使用することに慣れていません。線形回帰モデルで説明変数として日付変数を追加することができるかどうか疑問に思っています。可能であれば、どのように係数を解釈できますか？結果変数に対する1日の影響ですか？私がやろうとしていることの例で私の要点を見てください。

16 r regression time-series

3

多変数回帰にさらに変数を追加すると、既存の変数の係数が変わりますか？

3変数で構成される多変数（複数の独立変数）回帰があるとします。これらの各変数には、所定の係数があります。4番目の変数を導入して回帰を再実行することにした場合、3つの元の変数の係数は変わりますか？より広く：多変数（複数の独立変数）回帰では、特定の変数の係数は別の変数の係数の影響を受けますか？

16 regression multiple-regression multivariable

1

回帰におけるデータのセンタリングと標準化の必要性

いくつかの正則化を伴う線形回帰を考えてみましょう：例えばを最小化するを見つけますxxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常、Aの列は平均と単位ノルムがゼロになるように標準化され、は平均がゼロになるように中央揃えされます。標準化とセンタリングの理由についての私の理解が正しいかどうかを確認したいと思います。bbb と列の平均をゼロにすることにより、切片項はもう必要ありません。そうでなければ、目的はます。Aの列のノルムを1にすることにより、Aの1つの列が非常に高いノルムを持っているために係数が低くなり、その列が誤って結論付けられる可能性を排除します。 Aはxをうまく「説明」しません。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx この推論は厳密ではありませんが、直感的には正しいと思いますか？

16 regression lasso regularization standardization

2

なぜ正射影の射影行列は対称的ですか？

私はこれにかなり慣れていないので、質問が素朴な場合はご容赦ください。（コンテキスト：私はダビッドソン＆マッキノンの本からの計量経済学を勉強しています「計量経済理論と方法」、そして、彼らはこれを説明していないようです。私も見てきたルーエンバーガーのビットより高度なレベルでの予測を扱うことに最適の本が、運がありません）。射影行列Pが関連付けられている正射影PP\mathbb Pとします。Iは各ベクトルを投影するに興味R nは、いくつかの部分空間にA ⊂ R N。PP\bf PRnRn\mathbb{R}^nA⊂RnA⊂RnA \subset \mathbb{R}^n 質問：T、つまりPが対称であるというのはなぜですか？この結果についてどのような教科書を見ることができますか？P=PP=P\bf{P}=PTT^TPP\bf P

16 regression least-squares

4

クラシック線形モデル-モデル選択

私は古典的な線形モデルを持ち、5つのリグレッサがあります。それらは互いに相関関係がなく、応答との相関が非常に低くなっています。3つのリグレッサがt統計に有意な係数を持つモデルに到達しました（p <0.05）。残りの2つの変数のいずれかまたは両方を追加すると、追加された変数のt統計値に対してp値が0.05より大きくなります。これは、3変数モデルが「最良」であると信じさせることにつながります。ただし、Rでanova（a、b）コマンドを使用すると（aは3変数モデル、bは完全モデル）、F統計のp値は<0.05であり、3変数よりも完全モデルを優先するように指示されますモデル。これらの明らかな矛盾をどのように調整できますか？ PS Editに感謝：さらなる背景。これは宿題ですので、詳細は投稿しませんが、リグレッサーが何を表すかについては詳しく説明しません。1から5までの番号が付けられているだけです。

16 r regression self-study linear-model

2

回帰の定義自然3次スプライン

私はHastieらによる「統計学習データマイニング、推論、および予測の要素」という本からスプラインについて学んでいます。145ページで、Natural 3次スプラインが境界の結び目を越えて線形であることを発見しました。スプラインにはノット、があり、本のそのようなスプラインについては次のとおりです。KKKξ1、ξ2、。。。ξKξ1、ξ2、。。。ξK\xi_1, \xi_2, ... \xi_K 質問1： 4自由度はどのように解放されますか？私はこの部分を取得しません。質問2：の定義において場合次いで。この式で著者がやろうとしていることは何ですか？これは、スプラインが境界ノットを超えて線形であることを確認するのにどのように役立ちますか？dk（X）dk（バツ）d_k(X)k = Kk=Kk=KdK（X）= 00dK（バツ）=00d_K(X) = \frac 0 0

16 regression degrees-of-freedom splines constraint cubic

1

線形回帰の最小点数

線形回帰で時間の経過に伴う傾向を探すための「合理的な」最小数の観測値は何でしょうか？二次モデルをフィッティングするのはどうですか？私は健康の不平等の複合指標（SII、RII）を使用しており、調査の波は4つしかないため、4つのポイント（1997、2001、2004、2008）です。私は統計学者ではありませんが、直観的な印象は4ポイントでは不十分です。答えや参考文献はありますか？どうもありがとう、フランソワーズ

16 regression

3

分位点回帰に対する線形回帰の利点は何ですか？

線形回帰モデルがあること仮定の束になりクォンタイル回帰は、線形回帰の仮定が満たされた場合、ないとし、その後、私の直感（およびいくつかの非常に限られた経験が）中央値回帰は、線形回帰とほぼ同じ結果を与えるだろうということです。それでは、線形回帰にはどのような利点がありますか？それは確かにより馴染みがありますが、それ以外は？

15 regression multiple-regression quantile-regression

7

パーセンテージデータにはどのような曲線（またはモデル）を適合させる必要がありますか？

ウイルスコピーとゲノムカバレッジ（GCC）の関係を示す図を作成しようとしています。これは私のデータのようです：最初、私は線形回帰をプロットしましたが、スーパーバイザーはそれが間違っていると私に言って、シグモイド曲線を試してみました。そこで、geom_smoothを使用してこれを行いました。 library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + theme_bw() + theme(legend.position = 'top', legend.text …

15 regression modeling curve-fitting percentage

1

2つの決定木の合計は、単一の決定木と同等ですか？

入力を出力マッピングする2つの回帰ツリー（ツリーAとツリーB）があるとします。ましょうツリーA及びため各ツリーは、分離機能として超平面を用いて、バイナリ分割を使用してツリーB.ため。X ∈ Rdバツ∈Rdx \in \mathbb{R}^dy^∈ Ry^∈R\hat{y} \in \mathbb{R}y^= fA（x ）y^=fA（バツ）\hat{y} = f_A(x)fB（x ）fB（バツ）f_B(x) ここで、ツリー出力の重み付き合計を取ると仮定します。 fC（x ）= wA fA（x ）+ wB fB（x ）fC（バツ）=wA fA（バツ）+wB fB（バツ）f_C(x) = w_A \ f_A(x) + w_B \ f_B(x) 関数は、単一の（より深い）回帰ツリーと同等ですか？fCfCf_C答えが「時々」である場合、どのような条件下でですか？理想的には、斜めの超平面（フィーチャの線形結合で実行される分割）を許可したいと思います。しかし、単一機能の分割が利用可能な唯一の答えであれば、それは大丈夫かもしれないと仮定します。例以下は、2D入力空間で定義された2つの回帰木です。この図は、各ツリーが入力領域を分割する方法と、各領域の出力（グレースケールでコーディング）を示しています。色付きの数字は、入力スペースの領域を示します。3、4、5、6はリーフノードに対応します。1は3と4の結合などです。ここで、ツリーAとBの出力を平均すると仮定します。平均出力は左側にプロットされ、ツリーAとBの判定境界が重ねられています。この場合、出力が平均（右側にプロット）に等しい単一のより深いツリーを構築できます。各ノードは、ツリーAおよびBによって定義された領域から構築できる入力空間の領域に対応します（各ノードの色付きの数字で示されます。複数の数字は2つの領域の交差を示します）。このツリーは一意ではないことに注意してください。ツリーAではなくツリーBから構築を開始することもできます。この例は、答えが「はい」である場合が存在することを示しています。これが常に真実かどうか知りたい。

15 regression machine-learning cart

5

回帰モデルを改善するために平均絶対誤差の箱ひげ図に基づいて外れ値を削除するのはごまかしですか

下の箱ひげ図に示すように、4つの方法でテストされた予測モデルがあります。モデルが予測する属性の範囲は0〜8です。すべてのメソッドで、1つの上限外れ値と3つの下限外れ値が示されていることに気付くかもしれません。これらのインスタンスをデータから削除することが適切かどうか疑問に思いますか？または、これは予測モデルを改善するための一種の不正行為ですか？

15 regression machine-learning multiple-regression predictive-models outliers

1

2つの回帰係数の比の不偏推定量？

もしA線形/ロジスティック回帰フィット仮定の不偏推定の目的で、1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2。あなたは、a1とa2の両方が、それらの推定のノイズに対して非常に正であると確信しています。a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 共分散がある場合、答えを計算するか、少なくともシミュレートできます。より良い方法がありますか？また、実際の問題で大量のデータがある場合、推定値の比率を取得するために、またはハーフステップを実行して係数が独立していると仮定するために、どの程度のトラブルが発生しますか？a1,a2a1,a2a_1, a_2

15 regression regression-coefficients unbiased-estimator ratio

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

タグ付けされた質問 「regression」

タグ付けされた質問「regression」