タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。

2
ベイズ推定では、なぜ一部の項が事後予測から除外されるのですか?
ケビンマーフィーのガウス分布の共役ベイズ分析では、事後予測分布は p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(x∣D)=∫p(x∣θ)p(θ∣D)dθ p(x \mid D) = \int p(x \mid \theta) p(\theta \mid D) d \theta ここで、はモデルが適合するデータであり、は見えないデータです。私が理解していないのは、積分の最初の項でへの依存がなくなる理由です。確率の基本的なルールを使用して、私は期待したでしょう:DDDxxxDDD p(a)p(a∣b)p(x∣D)=∫p(a∣c)p(c)dc=∫p(a∣c,b)p(c∣b)dc↓=∫p(x∣θ,D)⋆p(θ∣D)dθp(a)=∫p(a∣c)p(c)dcp(a∣b)=∫p(a∣c,b)p(c∣b)dc↓p(x∣D)=∫p(x∣θ,D)⏞⋆p(θ∣D)dθ \begin{align} p(a) &= \int p(a \mid c) p(c) dc \\ p(a \mid b) &= \int p(a \mid c, b) p(c \mid b) dc \\ &\downarrow \\ p(x \mid D) &= \int \overbrace{p(x \mid …

1
LASSO回帰係数の解釈
私は現在、約300の変数と800の観測値を持つデータセットのバイナリ結果の予測モデルの構築に取り組んでいます。このサイトでは、段階的回帰に関連する問題と、なぜそれを使用しないのかについて多くを読みました。 私はLASSOの回帰とその機能選択機能を読んでおり、「キャレット」パッケージと「glmnet」を使用してそれを実装することに成功しています。 私は最適で、モデルの係数を抽出することができるよlambdaとalpha「キャレット」から。ただし、係数の解釈方法には慣れていません。 LASSO係数はロジスティック回帰と同じ方法で解釈されますか? LASSOから選択した機能をロジスティック回帰で使用することは適切でしょうか? 編集 LASSO回帰の指数係数のように、他のすべての係数を一定に保ちながら係数の1単位の対数オッズが変化するときの係数の解釈。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

4
Rでのnlsモデルの正しい開始値の取得
次のようなデータセットに単純なべき乗則モデルを適合させようとしています。 mydf: rev weeks 17906.4 1 5303.72 2 2700.58 3 1696.77 4 947.53 5 362.03 6 目標は、電力線を通過させ、それを使用してrev、今後数週間の値を予測することです。たくさんの研究の結果、私はこのnls機能にたどり着きました。その機能を次のように実装しました。 newMod <- nls(rev ~ a*weeks^b, data=modeldf, start = list(a=1,b=1)) predict(newMod, newdata = data.frame(weeks=c(1,2,3,4,5,6,7,8,9,10))) これはlmモデルで機能しsingular gradientますが、エラーが発生します。これは、開始値aとに関係していることを理解していますb。私はさまざまな値を試しましたが、これをExcelでプロットし、1つを渡し、方程式を取得し、方程式の値を使用しましたが、それでもエラーが発生しました。私はこのような答えをたくさん見て、2番目の答えを試しました(最初の答えは理解できませんでした)が、結果はありませんでした。 ここで、適切な開始値を見つける方法について、いくつかのヘルプを実際に使用できます。または、nlsの代わりに使用できる他の関数。 mydf簡単に再作成したい場合: mydf <- data.frame(rev=c(17906.4, 5303.72, 2700.58 ,1696.77 ,947.53 ,362.03), weeks=c(1,2,3,4,5,6))

1
Netflixが5つ星の評価システムから高評価/低評価のシステムに切り替えるのはなぜですか?
Netflixは、ユーザーが送信した他の映画や番組の評価に基づいて提案を行っていました。この評価システムには5つ星がありました。 現在、Netflixを使用すると、ユーザーは映画/番組を高く評価/低く評価(高く評価/低く評価)できます。彼らは映画を評価する方が簡単だと主張している。 この2ウェイ分類は、5ウェイ分類システムよりも統計的に予測性が低いのではないでしょうか。変動が少ないと思いませんか?

1
モデルの検索をいつ停止する必要がありますか?
エネルギーのストックプライスと天気のモデルを探しています。私は、ヨーロッパの国々の間で購入したMWattの価格と、天気に関する多くの価値を持っています(Gribファイル)。5年(2011-2015)の各時間。 価格/日 これは1年間、1日あたりです。私はこれを5時間に1時間ごとに持っています。 天気の例 ケルビンでの1時間の3Dscatterplot。1時間あたりのデータごとに1000個の値と、クレビン、風、地理ポテンシャルなどの200個のデータがあります。 私は、MWの1時間あたりの平均価格を予測しようとしています。 天気に関する私のデータは非常に密度が高く、1時間あたり10000値を超えるため、高い相関関係があります。これは、短いビッグデータの問題です。 私は、ラッソー、リッジ、SVRの方法を試し、MWattの平均価格を結果として、天気のデータを収入として使用しました。トレーニングデータとして70%、テストとして30%を使用しました。テストのデータが予測されていない場合(トレーニングデータ内のどこかにある場合)、適切な予測が得られます(R²= 0.89)。しかし、私は自分のデータを予測したいと思います。 したがって、テストデータが私のトレーニングデータの後に時系列である場合、何も予測されません(R²= 0.05)。時系列なので、普通だと思います。そして、多くの自己相関があります。 ARIMAのようなタイムセリエモデルを使わないといけないと思いました。メソッドの順序(セリエが静止している)を計算してテストしました。しかし、それは動作しません。つまり、予測のr²は0.05です。テストデータに対する私の予測は、テストデータに対する予測とはまったく異なります。私は自分の天気をリグレッサとしてARIMAXメソッドを試しました。つまり、情報は追加されません。 ACF / PCF、テスト/トレーニングデータ だから私は一日あたり、そして週あたりの季節のカットをしました 日 最初のトレンドの週 そして、私の株価のトレンドの傾向を事前に判断できれば、これを得ることができます: 青は私の予測であり、赤は実際の値です。 天気のローリング平均を収入として、株価のトレンドのトレンドを結果として回帰を行います。しかし、今のところ、私はどんな関係も見つけていません。 しかし、相互作用がない場合、何もないことをどうやって知ることができますか?多分それは私がそれを見つけていないだけのことです。

2
決定木と回帰-予測値がトレーニングデータの範囲外になることはありますか?
意思決定ツリーに関しては、予測値はトレーニングデータの範囲外にありますか? たとえば、ターゲット変数のトレーニングデータセットの範囲が0〜100の場合、モデルを生成して別のモデルに適用すると、値を-5にできますか?または150? 意思決定ツリーの回帰についての私の理解は、それが依然としてルールベース-左/右の進行であり、トレーニングセットのツリーの下部では特定の範囲外の値を見ることができないため、それを予測しますか?

3
マルチターゲットテクニックについて学ぶためのリソース
複数のターゲットを持つデータを処理できる手法(例:3つの従属変数:2つの離散と1つの連続)に関するリソース(本、講義ノートなど)を探しています。 誰かこれに関するリソース/知識はありますか?これにニューラルネットワークを使用することは可能です。

1
パネル/縦断データの予測評価指標
月次レベルでの行動の予測を提供するいくつかの異なるモデルを評価したいと思います。データはバランスが取れており、 100,000および 12です。結果は特定の月のコンサートに参加しているため、任意の月の約80%の人にとってはゼロですが、ヘビーユーザーの長い右裾があります。私の予測は、結果のカウントの性質を尊重していないようです。フラクショナルコンサートが一般的です。n=n=n=T=T=T= モデルについては何も知りません。私は1人あたり1か月あたり6つの異なるブラックボックス予測のみを観察します。モデルビルダーが推定のために持っていなかった余分な1年分のデータがあります(コンサートの参加者は同じままですが)。それぞれのパフォーマンスが(正確さと精度の点で)どこにあるかを測定したいと思います。たとえば、あるモデルは、頻繁にコンサートに行く人にはよく予測しますが、カウチポテトには失敗しますか?1月の予測は12月の予測よりも良いですか?あるいは、正確な大きさが信頼できない場合でも、予測により、実績の点で人々を正しくランク付けできることを知っておくとよいでしょう。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 私の最初の考えは、予測ダミーと時間ダミーで実際の固定効果回帰を実行し、各モデルのRMSEまたはを確認することでした。しかし、これは、各モデルがどこでうまく機能するか、または差が大きいかどうか(RMSEをブートストラップしない限り)に関する質問には答えません。結果の分布も、このアプローチを心配しています。R2R2R^2 私の2番目のアイデアは、結果を0、1、3、3+に分類し、混同行列を計算することでしたが、これを12にしない限り、これは時間次元を無視します。また、かなり粗いです。 concordTJ SteichenとNJ CoxによるStataコマンドを知っていby()ます。これにはオプションがありますが、データを年次合計に集約する必要があります。これは、他の有用な統計の中でも、信頼区間を含むLinの相関相関インデックスを計算します。CCCの範囲は-1から1で、完全に1で一致しています。 オプションがあるハレルの(R.ニューソンによって計算さ れた)もありますが、それによってパネルデータを処理できるかどうかはわかりません。これにより、信頼区間が得られます。ハレルのcは、継続的な結果を得るためのROC曲線(AUC)の下の面積の一般化です。これは、より高い予測を持つ被験者が実際により高い結果を持つように注文できるすべてのペアの割合です。したがって、ランダム予測の場合は、完全に識別できるモデルの場合はです。ハレルの本、p.493を参照してくださいcccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 この問題にどのように取り組みますか?MAPEのように予測に共通する統計を計算することをお勧めしますか? これまでに見つかった便利なもの: スライド林のコンコーダンス相関係数の反復測定バージョンに

2
このモデル化アプローチには過剰適合がありますか
最近、私が従ったプロセス(修士論文のコンポーネント)は適合しすぎていると見なすことができると言われました。私はこれをよりよく理解し、他の人が同意するかどうかを確認したいと思っています。 論文のこの部分の目的は 勾配ブースト回帰ツリーとデータセットのランダムフォレストのパフォーマンスを比較します。 選択した最終モデル(GBMまたはRF)のパフォーマンスを確認します。 R のgbmおよびrandomForestパッケージが、とともに使用されてい caretます。 実行されたプロセスは次のとおりです。 データの予備的な前処理(例:名目上の予測値の欠損値を "欠落"と呼ばれる明確なカテゴリで埋める)。ターゲット変数は、前処理に関しては調べられませんでした(これは非常に最小限でした)。 各アルゴリズムのメタパラメータの値のグリッドを作成します(GBMの反復回数など)。 データセットの25のランダムな分割を作成します(65%のトレーニングと35%のテスト)。 GBMに対して次の25回を繰り返します(毎回、ランダムトレイン/テストスプリットの1つを利用します。毎回、どのトレーニングとテストセットがコース変更の「最新」であるかを確認します。これは、グループ脱退相互検証の繰り返しです)。 5分割交差検証を使用して、グリッド検索でアルゴリズムの「最適な」パラメーター設定を見つけます。現在の実行では、以前の実行の何も使用されていません。 決定したら、モデルを完全な「現在の」トレーニングセットに適合させ、「現在の」テストセットを予測します。この実行のパフォーマンス測定を取っておきます。 この方法で25のパフォーマンス指標(実際にはドメイン固有の指標ですが、精度と考えることができます)が取得されたら、RFに対してまったく同じ独立したトレーニングとテストのサンプルを使用して、まったく同じプロセスに従います(同じプロセス、異なるプロセスのみ)もちろんグリッド検索)。 現在、GBMとRFの当時の「現在の」テストセットから、25のパフォーマンス測定があります。ウィルコクソン符号順位検定と順列検定を使用してそれらを比較します。GBMの方が優れていることがわかりました。また、GBMに対するこれらの25回の実行からのパフォーマンス測定の分布は、最終的なGBM分類器の期待されるパフォーマンスであると主張しました。 私がしなかったことは、ランダムなテストセットを最初から引き出して、すべてのトレーニングデータから構築された最終的なGBMモデルと比較するために脇に置いておくことでした。データの分割、モデルの調整、ホールドアウトプロセスのテストを25回繰り返したのと比べて1回だけ行ったので、実際に行った方がはるかに優れていたと私は思います。 ここに過剰適合がありますか?25回の実行を使用してGBMとRFを選択したので、プロセスから取得したパフォーマンス測定値を完全なモデルのパフォーマンス推定として使用できないことを意味しますか? 編集 ウェインのコメントに応えて、25回の実行のそれぞれの間に行われたことを以下に示します。 i番目のトレーニングセット(i = 1、..、25)についてサンプリングされたデータは、5つの同じサイズのグループに分割されました。5つのグループのうち4つを使用してモデルを適合させ、GBMパラメーター(たとえば、反復回数)をj番目(j = 1、..、18)グリッドの値と等しく設定しました。 5番目のグループのパフォーマンスは、このモデルを使用して計算されました。 ステップ1と2をさらに4回繰り返しました(k = 5の通常の古いk倍CV)。パフォーマンスは5回のサブランの平均であり、これは特定のパラメーター値のセットでGBMの予想されるパフォーマンスを構成しました。 グリッド内の他の17行について、手順1〜3を繰り返しました。 完了すると、上記の演習から最適なパラメーター値が決定され、GBMはこれらのパラメーター値と完全なi番目のトレーニングセットを使用して適合されました。そのパフォーマンスは、i番目のテストセットで推定されました。 このプロセス全体が25回実行されると、GBMで使用できるパフォーマンスの測定値は25になります。その後、彼らはまったく同じ方法でRFのために集められました。 GBMを比較して選択した後、25のパフォーマンス測定値を調べ、平均と標準誤差を使用して、このデータのGBMモデルの信頼区間を決定しました。

1
時系列の違いの信頼区間
いくつかのプロセスの時系列をシミュレートするために使用される確率モデルがあります。1つのパラメーターを特定の値に変更した場合の影響に興味があり、時系列(モデルAとモデルBなど)とある種のシミュレーションベースの信頼区間の違いを示したいと思います。 私は単純に、モデルAからの一連のシミュレーションとモデルBからの一連のシミュレーションを実行し、各時点の中央値を差し引いて、時間全体の中央値の差を求めています。同じ方法を使用して、2.5と97.5の分位数を見つけました。私は各時系列を一緒に考慮していないので、これは非常に保守的なアプローチのように見えます(たとえば、各ポイントは過去および将来の時間で他のすべてのポイントから独立していると見なされます)。 これを行うより良い方法はありますか?

1
ロングメモリプロセスの予測
私は、に対してでを使用して2つの状態のプロセスを処理していますバツtxtx_t{ 1 、− 1 }{1,−1}\{1, -1\}T = 1 、2 、...t=1,2,…t = 1, 2, \ldots 自己相関関数は、メモリが長いプロセスを示します。つまり、指数<1のべき乗則減衰を表示します。Rで次のような系列をシミュレートできます。 > library(fArma) > x<-fgnSim(10000,H=0.8) > x<-sign(x) > acf(x) 私の質問:自己相関関数だけが与えられた系列の次の値を最適に予測するための標準的な方法はありますか?予測する1つの方法は、単に バツ^(t )= x (t − 1 )x^(t)=x(t−1)\hat{x}(t) = x(t-1) これは、分類率を持ちます。ここで、はlag-1の自己相関ですが、ロングメモリ構造を考慮に入れることで、より適切に実行できるように思えます。(1 + ρ1)/ 2(1+ρ1)/2(1 + \rho_1) / 2ρρ\rho

2
長期短期記憶(LSTM)リカレントニューラルネットワークの背後にある直感は何ですか?
Recurrent Neural Network(RNN)の背後にある考え方は私には明らかです。私はそれを次のように理解しています:一連の観測()(つまり、多変量時系列)があります。各単一観測は次元の数値ベクトルです。RNNモデル内では、次の観測は以前の観測と以前の "非表示状態"であると。ここで、非表示状態も数値で表されますベクトル(観測状態と非表示状態の次元は異なる場合があります)。隠された状態自体も、以前の観測と隠された状態に依存すると想定されます。o⃗ 1,o⃗ 2,…,o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_n → h io⃗ io→i\vec o_iNNNo⃗ i+1o→i+1\vec o_{i+1}o⃗ io→i\vec o_{i}h⃗ ih→i\vec h_i o⃗ i,h⃗ i=F(o⃗ i−1,h⃗ i−1)o→i,h→i=F(o→i−1,h→i−1)\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1}) 最後に、RNNモデルでは、関数はニューラルネットワークであると想定されます。利用可能なデータ(一連の観測)を使用して、ニューラルネットワークをトレーニング(適合)します。トレーニングの目標は、前の観測を使用して次の観測をできるだけ正確に予測できるようにすることです。FFF 現在、LSTMネットワークはRNNネットワークの修正版です。私が理解している限り、LSTMの背後にある動機は、RNNに固有の短いメモリの問題を解決することです(従来のRNNは、時間的に離れすぎている関連イベントに問題があります)。 LSTMネットワークの仕組みを理解しています。ここでLSTMの最良の説明、私が発見したことは。基本的な考え方は次のとおりです。 非表示状態ベクトルに加えて、非表示状態ベクトル()と同じサイズ(次元)を持つ、いわゆる「セル状態」ベクトルを導入します。「細胞状態」ベクトルは長期記憶をモデル化するために導入されたと思います。従来のRNNの場合と同様に、LSTMネットワークは入力として観測された隠された状態を取得します。この入力を使用して、次の方法で新しい「セル状態」を計算します。c⃗ ic→i\vec c_i c⃗ i+1=ω⃗ 1(o⃗ i,h⃗ i)⋅c⃗ i+ω⃗ …

1
まれなイベントをどのように予測しますか?
私は保険リスク予測モデルの開発に取り組んでいます。これらのモデルは、航空会社のノーショー予測、ハードウェア障害検出などの「まれなイベント」のものです。データセットを準備していたため、分類を適用しようとしましたが、否定的なケースの割合が高いため、有用な分類子を取得できませんでした。 私は高校の統計コース以外に統計とデータのモデリングの経験があまりないので、ちょっと混乱しています。 最初に思ったように、私は不均質なポアソンプロセスモデルを使用することを考えています。イベントデータ(日付、緯度、経度)に基づいて分類し、特定の場所の特定の日の特定の時間におけるリスクの可能性を適切に推定しました。 知りたいのですが、まれなイベントを予測するための方法論やアルゴリズムは何ですか? この問題に取り組むためのアプローチとして何をお勧めしますか?

1
スプライン/スムーズ回帰で新しいデータを予測する方法
予測モデルにスムース/スプラインを使用するときに、新しいデータの予測がどのように行われるかについての概念的な説明を誰かが提供できますか?たとえば、R gamboostのmboostパッケージでp-スプラインを使用して作成されたモデルがある場合、新しいデータの予測はどのように行われますか?トレーニングデータから何が使用されますか? 独立変数xの新しい値があり、yを予測するとします。モデルのトレーニング時に使用されるノットまたはdfを使用して、この新しいデータ値にスプライン作成の式が適用され、トレーニングされたモデルの係数が適用されて予測を出力しますか? これはRの例です。新しいデータの平均値として899.4139を出力するために、概念的に何を予測しているのですかmean_radius = 15.99? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

1
尾根となげなわの両方が別々にうまく機能するが、異なる係数を生成する場合の結果の解釈方法
LassoとRidgeの両方で回帰モデルを実行しています(0〜5の範囲の離散結果変数を予測するため)。モデルを実行する前に、のSelectKBestメソッドを使用scikit-learnして、機能セットを250から25に減らします。初期の特徴選択を行わないと、ラッソとリッジの両方で精度スコアが低くなります(サンプルサイズが600と小さいためである可能性があります)。また、一部の機能は相互に関連していることに注意してください。 モデルを実行した後、LassoとRidgeの予測精度はほぼ同じであることがわかります。ただし、係数の絶対値で並べ替えた後、最初の10個のフィーチャをチェックすると、最大で%50のオーバーラップがあることがわかります。 つまり、機能の重要性が各方法で割り当てられていることを考えると、選択したモデルに基づいてまったく異なる解釈をする可能性があります。 通常、機能はWebサイトでのユーザーの行動のいくつかの側面を表します。そのため、予測能力が高い機能(ユーザーの行動)と弱い機能(ユーザーの行動)を強調して、調査結果を説明したいと思います。しかし、今のところどうすればいいのかわかりません。モデルの解釈にはどのようにアプローチすればよいですか?たとえば、両方を組み合わせて重複するものを強調表示する必要がありますか、それとも解釈性が向上するので、投げ縄を使用する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.