タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。

3
歪んだデータによる回帰
ユーザー属性とサービスから訪問数を計算しようとしています。データは非常に歪んでいます。 ヒストグラム: qqプロット(左は対数): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) cityとservice因子変数です。 すべての変数で低いp値***が得られますが、rの2乗が.05と低くなっています。私は何をすべきか?指数関数などの別のモデルが機能しますか?


1
ノモグラムの読み取りに関する説明
以下は、式のrmsパッケージを使用してmtcarsデータセットから作成されたノモグラムです。 mpg ~ wt + am + qsec モデル自体は0.82のR2とP <0.00001で良いようです > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> …

3
線形回帰モデルまたは非線形回帰モデルの間の決定
線形回帰モデルと非線形回帰モデルのどちらを使用するかをどのように決定すべきですか? 私の目標はYを予測することです。 単純なおよびyデータセットの場合、散布図をプロットすることで、どの回帰モデルを使用するかを簡単に決定できました。xxxyyy ような多変量の場合。。。x nおよびy。どの回帰モデルを使用する必要があるかをどのように決定できますか?つまり、単純な線形モデル、または2次、3次などの非線形モデルの使用をどのように決定しますか?x1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy どの回帰モデルを使用する必要があるかを推論して決定するための手法、統計的アプローチ、またはグラフィカルプロットはありますか?

1
空間データへの分布のあてはめ
mathoverflowからの質問をクロスポストして、統計固有のヘルプを見つけます。 私は、負でない値を持つ2次元にうまく投影するデータを生成する物理プロセスを研究しています。各プロセスには、 - yポイントの(投影された)トラックがあります-下の画像を参照してください。xxxyyy サンプルトラックは青で、面倒な種類のトラックは緑で手書きされ、関心領域は赤で描かれています。 各トラックは、独立した実験の結果です。数年間で2千万回の実験が行われましたが、そのうち2千回だけがトラックとしてプロットした特徴を示しています。ここでは、トラックを生成する実験のみを考慮しているため、データセットは(約)2000トラックです。 11110410410^4 任意のトラックが問題の領域に入る可能性をどのように計算できますか? 関心領域に入るトラックが生成される頻度を確認するのに十分な速さで実験を行うことはできないため、利用可能なデータから推定する必要があります。 xxxy≥200y≥200y\ge200 各トラックから問題の領域までの最小距離を調整しましたが、これが正当な結果を生んでいるとは思いません。 1)このタイプのデータに分布を当てはめるための既知の方法はありますか? -または- 2)このデータを使用してトラックを生成するためのモデルを作成する明白な方法はありますか?たとえば、トラックの主成分分析を大きな空間のポイントとして使用し、それらのコンポーネントに投影されたトラックに分布(ピアソン?)を当てはめます。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
バイナリ応答と連続応答を組み合わせる最良の方法
集金代行の支払い金額を予測する最良の方法を考え出そうとしています。従属変数は、支払いが行われたときにのみ非ゼロになります。当然のことながら、ほとんどの人は到達できないか、借金を返済できないため、圧倒的な数のゼロがあります。 また、負債額と支払いの確率の間には非常に強い負の相関があります。通常、私は給与/不給の確率を予測するためにロジスティックモデルを作成しますが、これは最低の残高を持つ人々を見つけるという残念な結果をもたらします。 ロジスティックペイ/ノンペイモデルを、支払い金額を予測する別のモデルと組み合わせる方法はありますか?

3
オンライン出会い系サイトの統計
オンラインの出会い系システムが調査データを使用して一致を判断する方法に興味があります。 過去の試合の結果データがあるとします(たとえば、1 =結婚して幸せ、0 = 2日目はありません)。 次に、2つの好みの質問があったとしましょう。 「アウトドア活動はどの程度楽しんでいますか?(1 =強く嫌い、5 =強く好き)」 「あなたは人生についてどの程度楽観的ですか?(1 =強く嫌い、5 =とても好き)」 また、好みの質問ごとに、「配偶者があなたの好みを共有することはどれほど重要ですか(1 =重要ではない、3 =非常に重要)」というインジケーターがあるとします。 各ペアについて4つの質問があり、一致が成功したかどうかの結果がある場合、その情報を使用して将来の一致を予測する基本モデルは何ですか?


7
モデル構築における社会的差別の回避
アマゾンの最近の求人スキャンダルからインスピレーションを得た質問があります。求人プロセスで女性に対する差別があったとして非難されました。詳細はこちら: Amazon.com Incの機械学習スペシャリストは大きな問題を発見しました。彼らの新しい採用エンジンは女性が好きではありませんでした。 チームは2014年以来、優秀な人材の検索を機械化することを目的として求職者の履歴書をレビューするためにコンピュータープログラムを構築しています... ...同社の実験的採用ツールは、人工知能を使用して1〜5つ星の範囲の求職者のスコアを与えました... ...しかし、2015年までに、同社は新しいシステムがソフトウェア開発者の求人やその他の技術的な投稿の候補者を性別に中立的な方法で評価していないことに気付きました。 これは、Amazonのコンピューターモデルが、10年間に渡って会社に提出された履歴書のパターンを観察することで、応募者を精査するように訓練されたためです。ほとんどが男性から来ており、テクノロジー業界全体で男性が優勢であることを反映しています。(技術における性別の内訳については、こちらを参照してください:こちらをご覧ください)実際、Amazonのシステムは、男性の候補者が望ましいことを教えてくれました。「女性のチェスクラブのキャプテン」のように「女性の」という言葉を含む履歴書にペナルティを課した。そして、問題に詳しい人々によると、それは2つのすべての女性の大学の卒業生を格下げした。彼らは学校の名前を明記しなかった。 Amazonは、これらの特定の条件に中立になるようにプログラムを編集しました。しかし、それは、マシンが差別的であると証明することができる候補を分類する他の方法を考案しないという保証ではなかった、と人々は言った。 シアトルの会社は、幹部がプロジェクトへの希望を失ったため、最終的に昨年の初めまでにチームを解散しました... ...会社の実験は...機械学習の限界におけるケーススタディを提供します。 ...カーネギーメロン大学で機械学習を教えるニハール・シャーのようなコンピューター科学者は、まだやらなければならないことがたくさんあると言います。 「アルゴリズムが公正であることを保証する方法、アルゴリズムが本当に解釈可能で説明可能であることを確認する方法-それはまだかなり遠い」と彼は言った。 MASCULINE LANGUAGE [Amazon]は、Amazonのエジンバラエンジニアリングハブにチームを編成し、約12人に成長しました。彼らの目標は、ウェブを迅速にクロールし、採用に値する候補者を見つけることができるAIを開発することでした、と問題に詳しい人々は言った。 グループは、特定の職務と場所に焦点を当てた500台のコンピューターモデルを作成しました。彼らはそれぞれ、過去の候補者の履歴書に現れた約50,000の用語を認識するように教えました。アルゴリズムは、さまざまなコンピューターコードを書く能力など、IT応募者に共通のスキルにほとんど重要性を割り当てないことを学びました... 代わりに、テクノロジーは、男性エンジニアの履歴書でより一般的に見られる動詞を使用して自分自身を説明する候補者を支持しました。ある人は、「執行された」と「捕らえられた」と語った。 新しい個人の募集に役立つ5つ星のランキングなど、個人データからの出力を予測する統計モデルを構築するとします。倫理的な制約として、性差別も避けたいとしましょう。性別を除いて2つの厳密に等しいプロファイルが与えられた場合、モデルの出力は同じになるはずです。 性別(またはそれに関連するデータ)を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか? 性別による差別がないことを確認するにはどうすればよいですか? 統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか?

2
サンプル外予測を改善しない「重要な変数」-解釈方法は?
多くのユーザーにとって非常に基本的なことだと思います。 線形回帰モデルを使用して、(i)いくつかの説明変数と私の応答変数の関係を調査し、(ii)説明変数を使用して私の応答変数を予測します。 特定の説明変数Xが、私の応答変数に大きな影響を与えているようです。私の応答変数のサンプル外予測の目的でこの説明変数Xの追加値をテストするために、2つのモデルを使用しました:すべての説明変数を使用するモデル(a)とすべての変数を使用するモデル(b)変数Xを除きます。両方のモデルで、サンプル外のパフォーマンスのみを報告します。どちらのモデルもほぼ同じように良好に機能するようです。つまり、説明変数Xを追加しても、サンプル外の予測は改善されません。モデル(a)、つまりすべての説明変数を持つモデルも使用して、説明変数Xが応答変数に大きな影響を与えることを確認しました。 私の質問は今です:この発見をどう解釈するか?直接的な結論は、変数Xは推論モデルを使用して私の応答変数に大きな影響を与えるように見えても、サンプル外の予測を改善しないということです。しかし、私はこの発見をさらに説明するのに苦労しています。これはどのようにして可能であり、この発見の説明は何ですか? 前もって感謝します! 追加情報:「有意に影響する」とは、パラメーター推定の最高95%事後密度間隔に0が含まれないことを意味します(ベイズアプローチを使用したIM)。頻度論的には、これはおおよそ0.05未満のp値を持つことに相当します。私はすべてのモデルパラメーターに拡散(情報のない)事前分布のみを使用しています。私のデータは縦方向の構造を持ち、合計で約7000の観測が含まれています。サンプル外予測では、90%のデータを使用してモデルを適合させ、10%のデータを使用して複数の複製を使用するモデルを評価しました。つまり、トレーニングテストの分割を複数回実行し、最終的に平均パフォーマンスメトリックを報告しました。

2
ベイジアン線形回帰で事後予測分布を評価する
ベイジアン線形回帰の事後予測分布を、3ページのここで説明した基本的なケースを超えて評価し、以下にコピーする方法に混乱しています。 p (y〜∣ y)= ∫p (y〜| β、σ2)p (β、σ2∣ y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) 基本的なケースは次の線形回帰モデルです。 y= Xβ+ ϵ 、y〜N(Xβ、σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) で均一な事前分布、でscale-Inv事前分布、または正規逆ガンマ事前分布(ここを参照)を使用する場合、事後予測分布は分析的であり、学生tです。 χ 2 σ 2ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 このモデルについてはどうですか? y= Xβ+ ϵ …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
高次元データセットのガウスプロセス回帰
高次元データセットにガウスプロセス回帰(GPR)を適用した経験があるかどうかを確認したいだけです。さまざまなスパースGPRメソッド(スパース疑似入力GPRなど)のいくつかを調べて、機能選択がパラメーター選択プロセスの一部である高次元データセットで何が機能するかを確認します。 論文/コード/またはさまざまな方法を試してみてください。 ありがとう。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.