タグ付けされた質問 「predictor」

応答を予測するためにモデルで使用される変数を参照します。このタグは、予測モデリングだけでなく、説明および記述モデリングの変数にも使用できます。この同じ構造は、独立変数、説明変数、リグレッサ変数、共変量など、さまざまなコンテキストで多くの名前で使用されます。このタグは、これらの同義語のいずれにも使用できます。 バツ

1
標準化されたベータを元の変数に戻す
これはおそらく非常に単純な質問だと思いますが、検索した後、探している答えが見つかりません。 ベータのリッジ推定値を計算するために変数を標準化する必要がある(リッジ回帰)必要があるという問題があります。 次に、これらを元の変数スケールに戻す必要があります。 しかし、どうすればよいですか? 私は二変量のケースの式を見つけました β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. これは、D。グジャラート語、Basic Econometrics、175ページ、式(6.3.8)で与えられました。 ここで、は標準化された変数で実行された回帰からの推定量であり、は同じ推定量を元のスケールに変換して戻し、はの標本標準偏差、は標本標準偏差です。* β S 、Y S 、Xβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x 残念ながら、この本では、重回帰の類似の結果については説明していません。 また、私は二変量のケースを理解しているのかわかりませんか?単純な代数操作により、元のスケールでの式が得られます。β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 既にによってデフレートされている変数で計算されたが、再度変換するためにによってデフレートするますか?(さらに、平均値が追加されないのはなぜですか?) SXSXβ^β^\hat\betaSxSxS_xSxSxS_x では、結果を理解できるように、多変量のケースでこれをどのように導関数を使用して理想的に説明することができますか?

2
毎日、毎週、毎年の周期性を持つ時間ごとの時系列の予測
主な編集:Dave&Nickの対応に感謝します。良い知らせは、ループが機能するようになったことです(原則として、バッチ予測に関するHydnman教授の投稿から借用しました)。未解決のクエリを統合するには: a)auto.arimaの最大反復回数を増やすにはどうすればよいですか。外生変数が多数あるため、auto.arimaは最終モデルに収束する前に最大反復回数に達しているようです。これを誤解している場合は訂正してください。 b)Nickからの1つの回答は、時間間隔の私の予測はそれらの時間間隔のみから導き出され、その日の早い段階での発生に影響されないことを強調しています。このデータを処理することから、本能は、これがしばしば重大な問題を引き起こすべきではないことを教えてくれますが、これをどのように処理するかについての提案を受け入れます。 c)Daveは、予測変数を取り巻くリードタイムとラグタイムを特定するには、より高度なアプローチが必要であることを指摘しました。Rのこれに対するプログラムによるアプローチの経験はありますか?もちろん制限はあると思いますが、できる限りこのプロジェクトを進めたいと思っています。これが他の人にも役立つことは間違いありません。 d)新しいクエリですが、当面のタスクに完全に関連しています-注文を選択するときにauto.arimaはリグレッサを考慮しますか? 来店を予測しようとしています。移動する休日、うるう年、散発的なイベント(本質的には外れ値)を説明する機能が必要です。これに基づいて、私はARIMAXが私の最善の策であると収集し、外因性変数を使用して、複数の季節性と前述の要因を試してモデル化します。 データは1時間ごとに24時間記録されます。これは私のデータにゼロの量があるため、特に訪問数が非常に少ない1日の時間帯に問題があることが判明しています。また、営業時間は比較的不安定です。 また、3年以上の履歴データを持つ1つの完全な時系列として予測する場合、計算時間は膨大です。毎日の時間を別々の時系列として計算することで、それがより速くなると考えました。そして、忙しい時間帯でこれをテストすると、より高い精度が得られるようですが、早朝/後期の時間で問題になることが判明しましたt常に訪問を受ける。auto.arimaを使用するとプロセスにメリットがあると思いますが、最大反復回数に達する前にモデルに収束できないようです(そのため、手動での適合とmaxit句を使用しています)。 訪問数= 0の場合の外生変数を作成して、「欠落」データを処理しようとしました。繰り返しますが、これは、訪問がない唯一の時間である1日の店舗が閉まっているときだけ、忙しい1日の時間帯に最適です。これらの例では、外生変数は前向きに予測するためにこれを正常に処理するようであり、以前に閉じられた日の影響を含みません。ただし、店が開いているが、常に訪問を受けるとは限らない静かな時間を予測することに関して、この原則を使用する方法がわかりません。 Rでのバッチ予測についてのHyndman教授の投稿を利用して、24シリーズを予測するループを設定しようとしていますが、午後1時以降は予測したくなく、その理由を理解できません。「optim(init [mask]、armafn、method = optim.method、hessian = TRUE、:non-finite finite-difference value [1]のエラー」というエラーが表示されますが、すべての系列の長さが等しく、基本的に同じマトリックスですが、なぜこれが起こっているのか理解できません。これは、マトリックスがフルランクではないことを意味しますか?このアプローチでこれを回避するにはどうすればよいですか? https://www.dropbox.com/s/26ov3xp4ayig4ws/Data.zip date() #Read input files INPUT <- read.csv("Input.csv") XREGFDATA <- read.csv("xreg.csv") #Subset time series data from the input file TS <- ts(INPUT[,2:25], f=7) fcast <- matrix(0, nrow=nrow(XREGFDATA),ncol=ncol(TS)) #Create matrix of exogenous …


3
従属変数との相関が低い独立変数は有意な予測因子になることができますか?
8つの独立変数と1つの従属変数があります。私は相関行列を実行しましたが、そのうちの5つはDVとの相関が低くなっています。次に、段階的多重回帰を実行して、IVの一部またはすべてがDVを予測できるかどうかを確認しました。回帰は、2つのIVだけがDVを予測できることを示し(ただし、分散の約20%しか説明できない)、SPSSはモデルから残りを削除しました。私の監督者は、相関の強さが原因で、回帰モデルでより多くの予測子を見つけるべきだったため、回帰を正しく実行していないと考えています。しかし、相関関係は小さかったので、私の質問は次のとおりです。IVとDVがほとんど相関しない場合でも、IVは依然としてDVの優れた予測因子になり得ますか?

2
データセットの平均を使用して相関を向上させることはできますか?
従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43 この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測(ペア)が追加されます。これらの列の相関係数は0.77です このようにして相関を改善したようです。これは許可されていますか?平均を使用して、独立変数の説明力を増やしましたか?

1
パーセンタイルを予測子として使用する-良い考えですか?
線形回帰を使用して顧客のログ(支出)を予測する問題について考えています。 入力として使用する機能を検討していて、変数のパーセンタイルを入力として使用してもよいかどうか疑問に思っています。 たとえば、会社の収益を入力として使用できます。私が疑問に思っているのは、代わりに会社の収益パーセンタイルを使用できるかどうかです。 別の例は、カテゴリー産業分類子(NAICS)です。NAICSコードごとの中央値支出を見て、各NAICSコードを「NAICSパーセンタイル」に割り当てるとしたら、それは私が使用できる有効な説明変数ですか? パーセンタイルを使用するときに注意すべき問題があるかどうか疑問に思っていますか?ある意味で、ある種の特徴スケーリングと同等ですか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
非排他的なカテゴリ変数を使用して独立性をテストするにはどうすればよいですか?
前書き 私は、多くの行とバイナリの結果を含むカテゴリー分割表を持っています。 name outcome1 outcome2 ---- -------- -------- A 14 5 B 17 2 C 6 5 D 11 8 E 18 14 両方のカテゴリ(名前と結果)は互いに独立しているため、これで問題ありません。つまり、人物Aが人物Bになることはできず、結果1は結果2 と同時に発生しません。 問題を追加する ただし、エージェントにクラスを割り当てることで、データセットを充実させたいと思います。クラスは排他的ではなく、一部は相互に依存することさえあります。上記の例では、4つのクラスC xがあります。 name C1 C2 C3 C4 ---- --- --- --- --- A 0 0 1 1 B 1 0 1 0 C 1 …

2
スパース予測子変数を使用したロジスティック回帰
現在、バイナリロジスティック回帰を使用して一部のデータをモデル化しています。従属変数には多くの正のケースと負のケースがあります-それはまばらではありません。また、トレーニングセットが大きく(> 100,000)、関心のある主な効果の数は約15であるため、p> nの問題は心配していません。 私が心配しているのは、予測変数の多くが、連続している場合、ほとんどの場合ゼロであり、名目上の場合、ほとんどの場合nullであることです。これらの疎な予測子変数が> 0(またはnullではない)の値を取る場合、データに精通しているため、これらの変数が私の陽性のケースを予測する上で重要であることを知っています。これらの予測子のスパース性がモデルにどのように影響するかについての情報を探しています。 特に、スパースではなく相関しているが、実際にはポジティブケースの予測がうまくいかない別の予測変数がある場合、スパースではあるが重要な変数の影響がモデルに含まれないようにしたいと思います。 。 例を示すと、誰かが特定のアイビーリーグの大学で受け入れられるかどうかをモデル化しようとしていて、私の3つの予測因子がSATスコア、GPA、およびバイナリとしての「寄付> 100万ドル」であった場合、私には理由があります。 「寄付> 100万ドル」は、真実である場合、受け入れを非常に予測するものであると信じることです。高いGPAやSATよりもはるかに高いですが、非常にまばらです。これが私のロジスティックモデルにどのように影響しますか?また、これを調整する必要がありますか?また、別のタイプのモデル(たとえば、決定木、ランダムフォレストなど)がこれをより適切に処理しますか?

3
混合効果モデルで因子と共変量の間の相互作用を調べる方法は?
私は2つの因子AとB(5×3)と1つの共変量Xをサブジェクト内の設計に持っています。全体的なモデルを指定する方法は次のとおりです。 lme.out = lme(y~ A*B*X, random=~1|Subject, data=mydata) 私の解釈は、私がグラフで探していますということであるy~x傾きが異なるのレベルに基づいて共変量による変化、およびラインシフトアップまたはダウン、A及びB(インターセプトの変化)。 私が知りたいのは、因子を修正するA(レベルのいずれかをとる)場合、線(y~x)を見ると、どのような影響がありBますか?のレベルはBラインを上下にシフトしますか(切片)、またはラインの傾きを変更しますか(X)。 何らかのコントラスト分析を実行する必要がありますか?しかし、因子と共変量の間でコントラストがどのように機能するかはわかりません。 私が考えることができる1つの方法は、Aのさまざまなレベルに対応するデータのサブセットを取得し、次のようなモデルを作成することですlme(y~ B+X, random=~1|Subject, data=mydata[which(mydata$A = A1,])。このようにして、これらのモデル全体で得られる切片と勾配を比較できます。 私がしていることが理にかなっている場合、誰かが教えてもらえますか?どんな提案でも大歓迎です!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.