タグ付けされた質問 「linear-model」

確率変数が有限数のパラメーターで線形である関数によって1つ以上の確率変数に関連付けられているモデルを指します。

4
線形回帰の系統的/測定誤差
一連のデータがあり、測定の不確かさ{(\ Delta x_i、\ Delta y_i)}(測定装置からの系統誤差の伝搬から生じる)がそれぞれ異なると仮定しますポイント。データセットに対して線形回帰を行う場合、勾配の不確実性を計算するにはどうすればよいですか?明示的な手順または式を教えてください。(Δは、xはI、Δ Y I)(xi,yi)(xi,yi){(x_i,y_i)}(Δxi,Δyi)(Δxi,Δyi){(\Delta x_i,\Delta y_i)}

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
実世界でのMA(q)モデル入力とは何ですか?
AR(p)モデルを理解しています。その入力はモデル化される時系列です。MA(q)モデルについて読むとき、私は完全に行き詰まっています。その入力は、しばしば定式化されているため、イノベーションまたはランダムショックです。 問題は、(完全な)時系列のモデルがないイノベーションコンポーネントを取得する方法が想像できないことです(つまり、ε = Xo b s e r v e d− XP E R Fe c tε=Xobserved−Xperfect\varepsilon=X_{\rm observed}-X_{\rm perfect}、そしてそれはおそらく間違っています)。さらに、この革新的なコンポーネントをサンプルで取得できる場合、長期予測(個別の追加時系列コンポーネントとしてのモデル誤差項)を実行するときにどのように取得できますか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
実際のデータセットの線形回帰/予測に失敗する
回帰を実行しようとして失敗したデータセットがあります。 状況: 何千人ものバトルロボットオペレーターが、バトルロボットを使用して互いに戦います。 戦闘ロボットの中には、強力で強力なものもあれば、弱いものもあります。強いものはより頻繁に勝ち、より多くのダメージを与えます。 ロボットオペレーターのスキルはさまざまで、スキルの高いオペレーターが勝つ頻度が高く、より多くのダメージを与えます 彼らの戦いの結果に関するいくつかの要約情報がありますが、詳細のすべてではありません。 彼らが戦闘で使用した戦闘ロボットとその回数(勝利した戦闘の数を含む)、および彼らが与えた合計ダメージ(2種類のダメージAとダメージB)がわかります 一部のロボットはダメージAを与えるのが得意ですが、他のロボットはダメージBを与えます。 戦闘で使用したロボット(およびその回数)のみに基づいて不明な戦闘ロボットオペレーターの場合、達成できる各種類のダメージの量と、勝った可能性が最も高い戦闘の割合(%)を推定します 例えば: ジョンはロボットAを4戦、ロボットBを2戦使用し、240ユニット分のダメージを与えました ジェームズはロボットAを1戦、ロボットBを10戦使用し、1010ユニット分のダメージを与えました したがって、ロボットAはおそらく1戦あたり10ユニットのダメージAを与える一方、ロボットBは1戦あたり100ユニットのダメージAを与えると見積もることができるため、2つのロボットのそれぞれをプレイしただけのマシューによって与えられたダメージAを見積もるそれぞれ2戦、220 ==(10 * 2 + 100 * 2)と推定されます。 残念ながら、実際のデータはそれほどクリーンで簡単ではありません。 ロボットオペレーターのスキルには大きな違いがあります。たとえば、優れたオペレーターはロボットAに20ユニットのダメージを与え、悪いオペレーターは5ユニットしかダメージを与えることができません。 小さなサンプルの場合、対戦相手が引き寄せられるため、ランダムな差異があります(たとえば、誰かが強い対戦相手を引き、対戦相手よりも優れたロボットを持っているにもかかわらず負けます)。 最高のロボットオペレーターが最高のロボットを選んでより頻繁に戦闘に参加するという点で、いくつかのマイナーな選択バイアスがあるかもしれません 実際のデータセットはこちらから入手できます(既知の戦闘オペレーターの結果の63万件)。 http://goo.gl/YAJp4O データセットは次のように構成され、行ごとに1つのロボットオペレーターエントリがあります。 ラベルのない列1-オペレーターID 戦闘-このオペレーターが参加した戦闘の合計 勝利-このオペレーターが獲得した合計戦闘数 敗北-このオペレーターが負けた合計戦闘数 DamageA-与えられたダメージAポイントの合計 DamageB-与えられたダメージBポイントの合計 次の130組の列: battles_ [robotID]-ロボット[robotID]を使用した戦闘 victories_ [robotID]-ロボット[robotID]を使用して獲得した勝利 これまでに行ったこと: R biglmパッケージを使用していくつかの線形モデルをdamageA ~ 0 + battles_1501 + battles_4201 + ...試して、ロボットごとに「期待される」値のフィッティングを取得するなどの式を作成しました。 同じですが0 …

1
Rのロバストな単調回帰
次のテーブルがあります R df <- structure(list(x = structure(c(12458, 12633, 12692, 12830, 13369, 13455, 13458, 13515), class = "Date"), y = c(6080, 6949, 7076, 7818, 0, 0, 10765, 11153)), .Names = c("x", "y"), row.names = c("1", "2", "3", "4", "5", "6", "8", "9"), class = "data.frame") > df x y 1 2004-02-10 …

2
データで「エルボ」を探す
Subitizationは、応答時間のプロットの鋭い非線形性によるカウントとは区別された、数値の低いディスプレイの迅速で正確な列挙です。以下は、ワトソン、DG、メイラー、EA、およびブルース、LAM(2007)からの代表的なプロットです。ディスプレイ1〜3の平均列挙時間はほぼ線形に増加しますが、4の平均列挙時間は線形傾向に従っていないことに注意してください。一部の研究では、サブミティゼーションの「制限」はタスクの条件と参加者の作業記憶に依存していることが示唆されています。 肘の位置をテストする方法を探しています。最終的な目標は、参加者の助成限度を特定することです。現在、私の最善のアイデアは、多項式の対比を繰り返すようなことをすることです。基本的に、私は数値1〜3で二次トレンドをテストし、次に数値1〜4などでテストします。 それは私の統計的な知識の限界についてですが、このアイデアをあまり評価できません。考え? 前もって感謝します。

3
線形回帰の結果を評価する方法
線形回帰の問題があります。つまり、データセットがあり、それを2つのサブセットに分割しました。1つのサブセットは線形回帰を見つけるために使用され(トレーニングサブセット)、別のサブセットはそれを評価するために使用されます(評価サブセット)。私の質問は、この線形回帰の結果をデータの評価サブセットに適用した後、どのように評価するかです。 詳細は次のとおりです。 トレーニングサブセットでは、線形回帰を行います:、ここではグラウンドトゥルース(ターゲットとも呼ばれます)、は独立変数です。次に、とを見つけまし。(とはトレーニングサブセットで指定されます)。y x a b x yy=ax+by=ax+by = ax + byyyxxxaaabbbxxxyyy ここで、トレーニングサブセットから上記で見つかっとを使用し、それらを評価サブセットに適用します見つかりました。つまり、これらのはした線形回帰から求められます。ここで、に加えて、評価セットからもします。結果をどのように評価しますか(はとどれだけ異なるか)?それを行うための一般的な数学モデルはありますか?ある種の数学モデル/数式である必要があります。さまざまな方法を考えることができますが、それらはすべてアドホックまたはシンプルですが、これは科学的な研究のためのものであり、残念ながらアドホックなものはここでは使用できません。b y ′ = a x ′ + b y ′ x ′ y ′ y y ′ yaaabbby′=ax′+by′=ax′+by' = ax' + by′y′y'x′x′x'y′y′y'yyyy′y′y'yyy 何か案が?


3
OLSとMLを使用した線形回帰の推定
と仮定して、線形回帰を推定するとします。ML推定に対するOLSの利点は何ですか?MLメソッドを使用する場合、分布を知る必要があることはわかっていますが、私がMLとOLSのどちらを使用するかに関係なく、u \ sim N(0、\ sigma ^ 2)を想定しているため、この点は重要ではないようです。したがって、OLSの唯一の利点は、\ beta推定量の漸近的な特徴にあるはずです。または、OLS法の他の利点はありますか?U 〜N(0 、σ2)u∼N(0,σ2)u\sim N(0,\sigma^2)あなたuuU 〜N(0 、σ2)u∼N(0,σ2)u\sim N(0,\sigma^2)ββ\beta

2
線形回帰における確率リグレッサと非確率リグレッサの違いは何ですか?
回帰仕様であると仮定 どんなに確率的であるかどうか、私たちは、という仮定が必要になりますすべてのための同じを配布されて。ただし、が固定値ではなく確率確率変数である場合、別の仮定が必要です。つまり、外乱項の条件付き期待値はゼロです。つまり、はとは独立して配布されます。y私=β0+β1バツ私+ε私、y私=β0+β1バツ私+ε私、y_i=\beta_0+\beta_1x_i+\epsilon_i,バツ私バツ私x_iε私ε私\epsilon_i私私iバツ私バツ私x_iε私ε私\epsilon_iバツ私バツ私x_i 私の質問は、この仮定が実際にどのように違いを生むのでしょうか?実際には、各に対して観測値が1つしかないため、が依存せずに依存しているか、または依存して分布しているかを評価する方法はありません。ε私ε私\epsilon_iバツ私バツ私x_i(バツ私、y私)(バツ私、y私)(x_i,y_i)私私i

1
線形モデルと線形回帰の違い
線形回帰と線形モデルの違いに興味があります。私の理解では、線形回帰は線形モデルのより大きなファミリの一部ですが、両方の用語が同義語としてよく使用されます。さて、線形回帰を実行するときに満たす必要がある仮定をバイパスするために、回帰分析を線形モデルに置き換えることができると私は提案しました。トピックに関する読書の提案があれば、それらは大歓迎です。 私が何をしているのかを理解する手助けをしてほしい 線形回帰であり、そのように扱う必要があります 「線形モデル」に置き換えることができます 私の方法は「線形モデル」と同義です だから、ここでは私が略してやったことです。分析の目的は、散布図に線をプロットすることでした。データセットの分析には、x軸とラインの勾配と交点の両方が使用されます。結果変数は化学元素の割合(時間あたりの濃度)であり、予測子は2つの濃度の比率(したがって単位なし)でした。1つのプロットで比較する必要があるさまざまな環境(深度)でレートを測定しました。深さの1つだけが回帰の仮定に適合しません。 Rでlm関数を使用して線形方程式を計算しました。 lmオブジェクトの残差を確認しました。 残差が正規分布でも分散も等しくないことを発見しました。 結果の変量(レート)の対数変換により分散が修正されると考えましたが、残差はまだ正規分布していませんでした。 方程式から外れ値によるバイアスが少なくなるようにロバストな方法を使用することにしました。これは分析から除外できません(関数lmrob、パッケージrobustbase)。 対数変換のため、線をプロットしませんでした。対数変換する必要のない他のデータがプロットにありますが、問題を引き起こしているデータセットに匹敵するはずです。また、元のプロットは複数のプロットデザインの一部であり、すでに広範囲に及ぶため、プロットを対数スケールで拡大することもできません。 多分私の目的のために、回帰の仮定は興味がありませんか?今はどうしようか悩んでいるのでよろしくお願いします!

2
線形回帰の可能性
単純な線形回帰の可能性を人々がどのように導き出すかを理解しようとしています。1つの特徴xと結果yだけがあるとしましょう。私はないではない通常の密度自体で式を疑う私も疑問1が原因独立にシンプルな要因に製品を因数分解できることをしないでください。人々がこの表現をどのように導き出したのか疑問です。入力およびほぼすべての場所について(部分的に正しくない)仮定の全体の動物園があり、実際に正しい仮定を使用する必要がある重要なステップ(通常の密度の積を導出する方法)は省略されています:-( 私は仮定のが自然だと思うことは以下の通りである。我々は、固定されたトレーニングセット与えられていると仮定します(xi,yi)i=1,2,...,n(xi,yi)i=1,2,...,n(x_i, y_i)_{i=1,2,...,n} 長さ固定トレーニングセット内のペアは、iid分散されたランダム変数からのもの(xi,yi)(xi,yi)(x_i, y_i)nnn(Xi,Yi)(Xi,Yi)(X_i, Y_i) Yi=β0Xi+ϵiYi=β0Xi+ϵiY_i = \beta_0 X_i + \epsilon_i ϵiϵi\epsilon_i各として分散一次元IIDランダム変数でN(0,σ)N(0,σ)\mathcal{N}(0, \sigma)とσσ\sigma(簡単にするために)知られている(多分1条件濃度約ものと仮定すべきであるfϵi|Xifϵi|Xif_{\epsilon_i|X_i}ここ?人々は実際にここで何を仮定するべきか不確かに思われる...) レッツとlet。目標は、条件付き密度です。明らかに、 Y=(Y1,...,Yn)Y=(Y1,...,Yn)Y = (Y_1, ..., Y_n)X=(X1,...,Xn)X=(X1,...,Xn)X = (X_1, ..., X_n)fY|X=f(Y,X)fXfY|X=f(Y,X)fXf_{Y|X} = \frac{f_{(Y,X)}}{f_X}fY|X=∏i=1nfYi|XifY|X=∏i=1nfYi|Xif_{Y|X} = \prod_{i=1}^n f_{Y_i|X_i} 質問: ここから先に進むには? 仮定がまたはに関する情報をどのように与えるかわかりませんそのため、この量を単純に計算できません。また、一部の人々は、および正規分布している(または正規分布している)とは、も正規分布していると考えているかもしれませんが、...f(Yi,Xi)f(Yi,Xi)f_{(Y_i, X_i)}fXifXif_{X_i}fYi|Xi=f(Yi,Xi)fXifYi|Xi=f(Yi,Xi)fXif_{Y_i|X_i} = \frac{f_{(Y_i, X_i)}}{f_{X_i}}Yi=β0Xi+ϵiYi=β0Xi+ϵiY_i = \beta_0 X_i + \epsilon_iϵiϵi\epsilon_iϵi|Xiϵi|Xi\epsilon_i|X_iYi|XYi|XY_i|X 正規分布のランダム変数に関するステートメントがありますが、次のようになりますが正規分布で、が固定行列の場合、は通常再分布されます。上記の場合、はであり、定数行列ではありません。XXXA,BA,BA, BAX+BAX+BAX+BBBBβ0Xiβ0Xi\beta_0 X_i 他の情報源は、は通常すぐに配布されると想定しているようです。これは奇妙な仮定のようです...実際のデータセットでそれをどのようにテストできるでしょうか?fYi|XifYi|Xif_{Y_i|X_i} よろしくお願いいたします。 FW

1
私たちが知っているように、線形最小二乗分析の父親(または母親)は誰ですか?
背景: 最小二乗誤差近似はしばらく前からありました。 ラプラス、PS「カルクデプロバビリテのデメソデス分析」。Ch。Théorieanalytique desprobabilitésの4、Livre 2、3 ed。パリ:クールシエ、1820年。 ガウス、CF「Theoria Combinationis obsevationum erroribus minimis obnoxiae。」Werke、Vol。4.ゲッティンゲン、ドイツ:p。1、1823。 ウィキペディアは、ガウスとルジャンドルをその属性としています。(リンク) 多くのソフトウェアツールは、基本的な線形近似を実行して、近似の質を分析します。(JMP、R 'lm'、...) 2020年から1820年の間に200年のスパンがあります。どこかに詳細が追加されました。 質問: 私たちが知っているように、分析の効果的な「父」(または母)は誰ですか? この基本的な分析方法のように、「最初の」を最大80%(またはそれ以上)作成した誰かが「過去に戻る」必要がありますか? この「最初の作品」について言及してもらえますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.