タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。

3
移動履歴のみを使用してネットワーク上の次の移動を予測する統計モデル
過去の動きとグラフの構造のみに基づいて、グラフの次の動きを予測する統計モデルを構築することは可能ですか? 私は問題を説明するために例を作りました: 時間は離散的です。すべてのラウンドで、現在のノード/頂点に留まるか、接続されたノードの1つに移動します。時間は離散的であり、せいぜい1つのノードをラウンドごとに進めることができるため、速度はありません。 過去のルート/移動履歴:{A、B、C} -現在の位置:C 有効な次の手:C、B、X、Y、Z Cを選択した場合、固定されます。 場合Bあなたが後方に移動し、 そしてもしX、Y、またはZが前進を意味します。 リンクにもノードにも重みはありません。 最終的な宛先ノードはありません。観察された動きの動作の一部はランダムであり、一部には一定の規則性があります。 移動履歴を考慮しない非常に単純なモデルは、C、B、X、Y、およびZがそれぞれ次の移動になる確率が1/5 であると予測するだけです。 しかし、構造と運動履歴に基づいて、より良い統計モデルを作成することは可能だと思います。たとえば、前のラウンドでノードBから直接そこに移動した可能性があるため、インスタンスXの確率は低くなるはずです。同様に、Bも前のラウンドで固定されていた可能性があるため、確率が低くなります。 ユーザーがBに戻った場合、移動履歴は{A、B、C、B}のようになり、有効な移動はA、B、C、D、E、Xになります。Cへの移行は、固定されたままであった可能性があるため、確率が低くなるはずです。前のラウンドでCからXに移動できた可能性があるため、Xに移動する可能性も低くなります。以前の履歴も予測に影響を与える可能性がありますが、最近の履歴よりも重みを小さくする必要があります。2ラウンド前にBに滞在したか、A、D、E、Xに移動した可能性があります-3ラウンド前にAに滞在した可能性があります。 周りを見回すと、同様の問題が直面していることがわかりました。 移動体通信。オペレーターは、ユーザーが次に移動するセルタワーを予測して、通話/データ伝送をスムーズに引き継ぐことができるようにします。 ブラウザ/検索エンジンが次に進むページを予測しようとするWebナビゲーション。これにより、ページがプリロードおよびキャッシュされ、待機時間が短縮されます。同様に、マップアプリケーションは次に要求するマップタイルを予測し、これらをプリロードしようとします。 そしてもちろん運輸業界。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

1
疫学者/公衆衛生の同僚に高度な予測モデリングを穏やかに導入するにはどうすればよいですか?
社会科学と疫学の背景から来た私の同僚は、最小二乗回帰、ロジスティック回帰、および生存分析について訓練を受けました。彼らは、95%の信頼区間とパラメーター係数のp値を確認することを好み、ニューラルネットワーク、CART、バギングとブースティング、ペナルティ付き回帰手法などの現在の予測ツールに不信感を抱いています。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
実際のデータセットの線形回帰/予測に失敗する
回帰を実行しようとして失敗したデータセットがあります。 状況: 何千人ものバトルロボットオペレーターが、バトルロボットを使用して互いに戦います。 戦闘ロボットの中には、強力で強力なものもあれば、弱いものもあります。強いものはより頻繁に勝ち、より多くのダメージを与えます。 ロボットオペレーターのスキルはさまざまで、スキルの高いオペレーターが勝つ頻度が高く、より多くのダメージを与えます 彼らの戦いの結果に関するいくつかの要約情報がありますが、詳細のすべてではありません。 彼らが戦闘で使用した戦闘ロボットとその回数(勝利した戦闘の数を含む)、および彼らが与えた合計ダメージ(2種類のダメージAとダメージB)がわかります 一部のロボットはダメージAを与えるのが得意ですが、他のロボットはダメージBを与えます。 戦闘で使用したロボット(およびその回数)のみに基づいて不明な戦闘ロボットオペレーターの場合、達成できる各種類のダメージの量と、勝った可能性が最も高い戦闘の割合(%)を推定します 例えば: ジョンはロボットAを4戦、ロボットBを2戦使用し、240ユニット分のダメージを与えました ジェームズはロボットAを1戦、ロボットBを10戦使用し、1010ユニット分のダメージを与えました したがって、ロボットAはおそらく1戦あたり10ユニットのダメージAを与える一方、ロボットBは1戦あたり100ユニットのダメージAを与えると見積もることができるため、2つのロボットのそれぞれをプレイしただけのマシューによって与えられたダメージAを見積もるそれぞれ2戦、220 ==(10 * 2 + 100 * 2)と推定されます。 残念ながら、実際のデータはそれほどクリーンで簡単ではありません。 ロボットオペレーターのスキルには大きな違いがあります。たとえば、優れたオペレーターはロボットAに20ユニットのダメージを与え、悪いオペレーターは5ユニットしかダメージを与えることができません。 小さなサンプルの場合、対戦相手が引き寄せられるため、ランダムな差異があります(たとえば、誰かが強い対戦相手を引き、対戦相手よりも優れたロボットを持っているにもかかわらず負けます)。 最高のロボットオペレーターが最高のロボットを選んでより頻繁に戦闘に参加するという点で、いくつかのマイナーな選択バイアスがあるかもしれません 実際のデータセットはこちらから入手できます(既知の戦闘オペレーターの結果の63万件)。 http://goo.gl/YAJp4O データセットは次のように構成され、行ごとに1つのロボットオペレーターエントリがあります。 ラベルのない列1-オペレーターID 戦闘-このオペレーターが参加した戦闘の合計 勝利-このオペレーターが獲得した合計戦闘数 敗北-このオペレーターが負けた合計戦闘数 DamageA-与えられたダメージAポイントの合計 DamageB-与えられたダメージBポイントの合計 次の130組の列: battles_ [robotID]-ロボット[robotID]を使用した戦闘 victories_ [robotID]-ロボット[robotID]を使用して獲得した勝利 これまでに行ったこと: R biglmパッケージを使用していくつかの線形モデルをdamageA ~ 0 + battles_1501 + battles_4201 + ...試して、ロボットごとに「期待される」値のフィッティングを取得するなどの式を作成しました。 同じですが0 …

1
線形回帰の常に正の応答変数の予測の負の値
常に正である必要がある線形回帰の応答変数(クリックあたりのコスト)を予測しようとしています。金額です。アドワーズ広告では、広告のクリックに対してグーグルに支払い、負の数は、人々がクリックしたときにグーグルに支払いをすることを意味します:P 予測子はすべて連続値です。RsquaredとRMSEは、サンプル外であっても、他のモデルと比較するとまともです。 RMSE Rsquared 1.4141477 0.8207303 それはお金なので、予測を再調整することはできません。そのため、小さな再調整係数でもコストを大幅に変更する可能性があります。 私が理解している限り、回帰モデルについては、ゼロと負の数について特別なことは何もないため、出力が部分的に負であるかどうかに関係なく、最適な回帰超平面を見つけます。 これは私が持っているすべての変数を使用して、非常に最初の試みです。したがって、改善の余地があります。 出力を負にすることはできないことをモデルに伝える方法はありますか?

1
2つのチーム間の以前の試合の結果のみに基づいて、サッカーの試合の勝者を予測する
私はフットボール(サッカー)の大ファンで、機械学習にも興味があります。私のMLコースのプロジェクトとして、ホームチームとアウェイチームの名前から、ホームチームの勝率を予測するモデルを構築しようとしています。(私は自分のデータセットをクエリし、それに応じて、これら2つのチーム間の以前の一致に基づいてデータポイントを作成します) 私はすべてのチームのいくつかのシーズンのデータを持っていますが、アドバイスが必要な次の問題があります。EPL(イングリッシュプレミアリーグ)には20のチームがあり、国内と海外でプレーしています(1シーズンで合計380ゲーム)。したがって、シーズンごとに、どの2つのチームも2度しかプレーしません。 過去10年以上のデータがあるため、2つのチームで2 * 10 = 20データポイントになります。ただし、チームは時間の経過とともにかなり変化し(ManCity、Liverpool)、システムにさらに多くのエラーが発生するだけなので、3年以上はやりたくないと思います。 したがって、これにより、チームの各ペアで約6〜8データポイントになります。ただし、私は両方のチームのフルタイムのゴール、ハーフタイムのゴール、パス、ショット、イエロー、レッドなどの各データポイントにいくつかの機能(最大20+)を持っているので、最近のフォーム、最近のような機能を含めることができますホームフォーム、最近のアウェイフォームなど ただし、トレーニングするデータポイントが6〜8個しかないという考えは、私には正しくないようです。この問題にどのように対抗できるかについての考えはありますか?(これが最初の問題である場合)

5
連続応答変数の符号を予測するための分類と回帰
たとえば、プロジェクトが利益を生むかどうかを予測したいとします。私のサンプルデータでは、応答変数は実際には連続変数、つまりプロジェクトの$利益/損失です。 私の最終的な目標は単なるバイナリ分類(収益性のあるプロジェクトまたは収益性のないプロジェクト)なので、分類手法を使用する必要がありますか?または、連続応答変数が提供する追加情報を捨てないように、回帰を使用する必要がありますか?

2
ランダムフォレストの補完
ランダムフォレスト(特にRのrandomForest)を(予測子空間で)欠損値補完に使用することについて、2つの質問があります。 1)代入アルゴリズムはどのように機能しますか?特に、代入にクラスラベルがどのようにそしてなぜ必要なのですか?クラスごとに定義された欠損値を補完するために平均値に重みを付ける役割を果たす近接行列は何ですか? 2)欠損値を補完するためにクラスラベルが必要な場合-これを使用して、予測しようとしている新しいデータの欠損値を補完する方法を教えてください。

3
継続的な結果のための感度と特異性の類似体
結果を二分することなく継続的な結果(たとえば、血圧)を予測する際の継続的な診断テストの感度と特異度(または類似の測定)を計算するにはどうすればよいですか?何か案は? 研究者は混合効果モデリング(以下のリンクを参照)を使用してこれを行ったようですが、私は彼らがこの手法を使用することに慣れていません:http : //www.ncbi.nlm.nih.gov/pmc/articles/PMC3026390/ ちなみに、私はRに最も慣れているので、R関数を伴うことを提案する実装​​には理想的です(ただし、そうでなくても問題ありません)。 提案を事前にありがとう!

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
リフトチャートとゲインチャートは、従業員の離職モデルのコンテキストで何を述べているか
したがって、リフトチャートとゲインチャートを従業員の離職率モデル(SPSS ModelerでCHAIDを使用)に適用するため、チャートをさらに理解しようとしています。私のデータでは、これは自発的に退職する人数を予測することを意味します。 以下の参考文献を確認し、解釈に関する基本を説明します。x軸とy軸に何がプロットされているかと、探している理想的な曲線です。私は自分自身の利益を作成し、Excelでグラフを持ち上げる練習もしました。 しかし、これまでに見た例はすべてダイレクトメールキャンペーンに関するものです。これが私のデータにとって何を意味するのか知りたいです。ゲインチャートの場合、データの上位10%をサンプリングすると用語の40%を期待できるのに対し、データの上位60%をサンプリングすると用語の80%が得られるという意味ですか?(40%と60%が値であると想定してください)。もしそうなら、私のターンオーバーモデルのコンテキストでは本当にそれを理解できないので、私はそれからどのような意味を取り除くべきですか? 参照: データマイニングのリフト測定 リフトチャートとは http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html

3
歪んだ/高い尖度データのサポートベクター回帰
サポートベクター回帰を使用して、かなり歪んだデータ(尖度が高い)をモデル化しています。データを直接モデル化しようとしましたが、主にデータの分布が原因であると誤った予測を取得しています。いくつかの外れ値(これは正当なデータポイントです)がSVRトレーニングに影響を及ぼしていると確信しています。また、おそらくクロスバリデーションでも影響があり、現時点では平均二乗誤差を最小限に抑えることでハイパーパラメーターを最適化しています。 SVRを適用する前にデータをスケーリング(たとえば、sqrt関数を使用して外れ値を減らす)したり、別のハイパーパラメーター最小化関数(たとえば、絶対誤差)を使用したりしましたが、より良い結果が得られるようですが、それでもあまり良くありません。誰かが同様の問題に遭遇したかどうか、そして彼らがそれにどのように取り組みましたか?どんな提案や代替方法でも大歓迎です。

2
駐車場での自動車交通をモデル化するための一般的なアプローチ
私の友人から、中型の駐車場での車の交通量の予測モデリングを手伝ってくれるように頼まれました。ガレージには、忙しくて平穏な日、ピーク時、デッドタイムの​​営業時間があります(平日は12時間、週末は8時間営業しています)。 目標は、特定の日(たとえば、明日)に何台の車がガレージに入るか、およびこれらの車が1日を通してどのように分布するかを予測することです。 戦略とテクニックの一般的なリファレンス(できれば、一般公開されているもの)を参照してください。 ありがとうございました

1
Cox回帰予測モデルのサンプルサイズと交差検証法
コミュニティに提起したい質問があります。最近、腫瘍マーカーの予後研究のために統計分析を提供するように依頼されました。私は主にこれら2つの参照を使用して、私の分析を導きました。 McShane LM、他 腫瘍マーカー予後研究に関する推奨事項の報告(注釈)。J Natl Cancer Inst。2005年8月17日。97(16):1180-4。 サイモンRMなど 高次元データに基づく生存リスク分類子の予測精度を評価するための交差検証の使用。簡単なバイオインフォーム。2011年5月; 12(3):203-14。Epub 2011 2月15日。 以下の研究と分析をまとめました。コメント、提案、または批判をいただければ幸いです。 研究の背景: がんXの一部の患者は、治療後早期に再発します。現在医師が使用している臨床予後スコアは、これらの患者の臨床転帰を予測する上で十分な役割を果たしていません。したがって、この標準スコア以上の価値を追加する生物学的予後マーカーを特定することは有用です。この研究の目的は、そのようなバイオマーカーを発見することです。 調査方法: 候補バイオマーカーの事前選択 がんXに関連する12のバイオマーカーが以前の研究で特定された。以下に示すように、患者/腫瘍の独立したサンプルで、これらの12の候補と癌Xの関連を検証しようとしました。 事前選択された候補バイオマーカーの単変量検証 これらのバイオマーカーのレベルは、220人の患者/腫瘍のセットで測定されました。 [注:データをマスクして、*。csvファイルとして公開ダウンロードできるようにしました。ファイルには次の列があります。「ID」、各患者の一意の識別子。「PS」は各患者の予後スコアで、1は予後良好を示し、2は予後不良を示します。「m1」〜「m12」、各腫瘍マーカーのレベル。「時間」、月単位。「イベント」。0は監視が中止されたことを示し、1は治療失敗が発生したことを示す。 従属変数としての死亡までの時間を含む単変量Cox回帰モデルは、12のバイオマーカーのそれぞれについて作成されました(n = 220の観測値、イベントの数= 91)。 Risk LCI UCI pValue 1 0.93 0.86 1.02 0.1088 2 0.93 0.88 0.99 0.0215 3 0.99 0.92 1.05 0.6528 4 0.93 0.87 1.00 0.0468 5 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.