タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。

6
ロジスティック回帰はすべて1を予測し、0は予測しない
私は、ロジスティック回帰とランダムフォレストを使用して、ローンのデフォルトの確率を分析しています。 私がロジスティック回帰を使用する場合、予測は常にすべて1です(これはローンが良いことを意味します)。私はこれを見たことがなく、問題を解決するためにどこから始めればよいかわかりません。60万行の22列があります。列の数を減らすと、ロジスティック回帰で同じ結果が得られます。 なぜロジスティック回帰はそれほど間違っているのでしょうか? **Actual from the data** 0 : 41932 1 : 573426 **Logistic regression output** prediction for 1 when actually 0: 41932 prediction for 1 when actually 1:573426 A**s you can see, it always predicts a 1** **Random forests does better:** actual 0, pred 0 : 38800 actual 1, …

3
ロジスティック回帰モデルの正しい方法で予測子を減らす方法
現在の状況では、バイナリ応答データに基づいてロジスティックモデルを実行する必要があるため、モデリング(特にハレルの「回帰モデリング戦略」)に関する本(またはその一部)を読んでいます。データセットに、連続データ、カテゴリデータ、およびバイナリデータ(予測子)の両方があります。基本的に、私は現在約100の予測子を持っていますが、これは優れたモデルには明らかに多すぎます。また、これらの予測子の多くは、多少は異なりますが、同じメトリックに基づいていることが多いため、一種の関連性があります。 とにかく、一変量回帰と段階的手法を使用して私が読んでいることは、予測変数の量を減らすために実行できる最悪のことです。LASSOテクニックは(私がそれを正しく理解していれば)非常に大丈夫だと思いますが、明らかに100の予測子でそれを使用することはできません。 だからここで私の選択肢は何ですか?私は本当に座って、すべての上司、職場の賢い人々と話をし、トップ5の最良の予測因子が何である/するべきか(私たちは間違っているかもしれません)、またはどのアプローチが必要かについて本当に考えなければなりませんか?代わりに検討しますか? そして、はい、このトピックについてはオンラインと本でかなり議論されていることも知っていますが、このモデリング分野に少し慣れていないと、少し圧倒されるように見えることがあります。 編集: まず第一に、私のサンプルサイズは+1000人の患者であり(これは私の分野ではたくさんあります)、そのうち70-170の肯定的な応答があります(つまり、はいの応答が170であるのに対し、ケースの1つではおよそ900の応答がありません)。 。 基本的には、考えは放射線治療後の毒性を予測することです。予想されるバイナリレスポンスデータがいくつかあり(つまり、毒性があるか(1)、ないか(0))、いくつかのタイプのメトリックがあります。一部のメトリックは患者固有のものです。たとえば、年齢、使用する薬物、臓器とターゲットのボリューム、糖尿病などです。次に、ターゲットのシミュレーションされた治療フィールドに基づいたいくつかの治療固有のメトリックがあります。ほとんどの毒性は、受けた放射線(iedose)の量と非常に相関しているので、そのことから、私の分野でよく関連するいくつかの予測因子を取得できます。たとえば、私が肺腫瘍を治療する場合、ある程度の線量で心臓を打つリスクがあります。次に、心臓容積のx量がx量の投与を受ける量を計算できます。t始めに1つを選択するだけです(これは、過去の実験がもちろん試みたものであり、私が望んでいることでもあります)。これは、心臓毒性の間で実際に大きな相関がある程度を「正確に」知る必要があるためです。と体積線量(ここでも、例として、同じ戦略が適用される他の同様のメトリックがあります)。ええ、そうです、私のデータセットはこのようになっています。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。t始めに1つを選択するだけです(これは、過去の実験がもちろん試みたものであり、私が望んでいることでもあります)。これは、心臓毒性の間で実際に大きな相関がある程度を「正確に」知る必要があるためです。と体積線量(ここでも、例として、同じ戦略が適用される他の同様のメトリックがあります)。ええ、そうです、私のデータセットはこのようになっています。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。s私のデータセットがどのように見えるかということです。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。s私のデータセットがどのように見えるかということです。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。 次に、予測モデルを作成して、どの患者が何らかの毒性を受けるリスクがあるかを予測できるようにしたいと思います。そして、応答データはバイナリであるため、私の主なアイデアはもちろんロジスティック回帰モデルを使用することでした。少なくともそれは、私の分野で他の人々が行ったことです。ただし、既に行われているこれらの論文の多くを読んでいると、いくつかの問題が正しくないように見えます(少なくともF.ハレルのような特定のタイプのモデリングに関する本を読んでいるとき)。多くの場合、単変量回帰分析を使用して予測子を選択し、多変量分析で使用します(私が誤解していない場合はお勧めしません)。また、予測子の量を減らすために段階的な手法を使用することもあります。もちろん、すべてが悪いわけではありません。LASSO、PCA、相互検証、ブートストラップなどを多く使用していますが、私が見てきたものは、 機能の選択に関しては、これがおそらく私が今いるところです。モデルで使用する適切な予測子を選択/検索するにはどうすればよいですか?私はこれらの単変量/段階的アプローチを試しましたが、毎回「それが間違っているのに、なぜそうするのか?」しかし、おそらくそれは、少なくとも最終的には、「良いモデル」がどのようにして正しい方法を行ったかが「悪いモデル」が間違った方法で行われたかを示す良い方法かもしれません。ですから、おそらくやや間違った方法でそれを行うことができるでしょう。私が助けを必要としているのは、正しい方法でそれを行う方向を取得することです。 編集してすみません、それはとても長いです。 編集2: 私のデータがどのように見えるかの簡単な例: 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 ... $ Diabetes …

1
(ロジスティック)回帰に「予測」という単語を使用するのはどの程度公平ですか?
私の理解は、回帰でさえ因果関係を与えないということです。これは、y変数とx変数の間の関連付けと、場合によっては方向のみを与えることができます。私は正しいですか?ほとんどのコースの教科書やオンラインのさまざまなコースページでも、「xはyを予測する」に似たフレーズをよく見かけます。また、リグレッサを予測子、yを応答と呼ぶことがよくあります。 線形回帰にそれを使用することはどれほど公平ですか? ロジスティック回帰はどうですか?(確率tを比較できるしきい値tがある場合)

2
複数の空間解像度/スケールを持つソースからの時系列情報の結合
さまざまなセンサーから入手できる多くの衛星ラスター画像があります。これらから、より粗いものは非常に豊富な時間分解能を持っています。中解像度のラスターは取得日が少ない傾向がありますが、それでもある程度の情報は利用できます。より細かい解像度のものは、2年以内に観測された日付が2から6に及ぶ非常に低い時間解像度を持っています。誰かがこのタイプのマルチスケール時系列を何らかの方法で研究するための努力を知っているかどうか疑問に思っていましたか?より粗いものから得られる情報を使用して、より細かいスケールで将来の値を予測することに興味があります。データは関連している必要があります(画像が同じ領域をカバーしている)ことは私には理にかなっていますが、予測モデルでこの情報の結合を開始する方法がわかりません。

1
イベント予測のための隠れマルコフモデル
質問:隠しマルコフモデルの賢明な実装の下の設定ですか? 108,000観測データセット(100日間で取得)と2000、観測期間全体にわたるおおよそのイベントがあります。観測された変数が3つの離散的な値とることができる場所下図のようなデータルックスと赤の列は、イベント時間を強調表示、すなわちトンEさん:[1,2,3][1,2,3][1,2,3]tEtEt_E tEtEt_EtE−5tE−5t_{E-5} HMMトレーニング:私がすることを計画し訓練 Pgの上で示唆したように、複数の観測系列の方法論を使用して、すべての「プレイベントの窓」に基づき、隠れマルコフモデル(HMM)を。ラビナーの論文の 273 。うまくいけば、これにより、イベントにつながるシーケンスパターンをキャプチャするHMMをトレーニングできます。 l o g[ P(O b s e r v a t i o n s | HMM)]log[P(Observations|HMM)]log[P(Observations|HMM)]O b s e r v a t i o n sObservationsObservationstttt − 5t−5t-5 l o g[ P(O b s e r v a t i o …

1
売上予測のためのユニークな(?)アイデア
製品の総売上を予測するモデルの開発に取り組んでいます。約1年半の予約データがあるので、標準の時系列分析を行うことができました。ただし、クローズされたか失われた各「機会」(販売の可能性)に関するデータもたくさんあります。「商談」は、パイプラインのステージに沿って、閉じられるか失われるまで進行します。また、見込み客、営業担当者、インタラクション履歴、業界、予約の推定サイズなどに関するデータも関連付けられています。 私の目標は最終的には総予約数を予測することですが、予約の真の「根本原因」である現在の「機会」に関するこの情報をすべて考慮したいと思います。 私の考えの1つは、次のように2つの異なるモデルを連続して使用することです。 過去の「機会」を使用して、個々の「機会」から生じる予約を予測するモデルを構築します(おそらく、このステップでは、ランダムフォレストまたは単純な古い線形回帰を使用します)。 1からのモデルを使用して、現在パイプラインにあるすべての「機会」の推定予約を予測し、各「機会」が作成された月に基づいてそれらの推定を合計します。 時系列モデル(おそらくARIMA?)を使用し、1.5年間の月次履歴時系列データと、その月に作成されたすべての「機会」の予測(1のモデルを使用)合計予約を使用します。 実際の予約に変換するこれらの機会には遅れがあると考えられますが、時系列モデルはその遅れに対処できるはずです。 この音はどうですか?私は時系列についてたくさん読んだり、売り上げを予測したりしていますが、これからわか​​るのは、これはややユニークなアプローチです。したがって、私は本当にフィードバックをいただければ幸いです!

5
事前クラスタリングは、より優れた予測モデルの構築に役立ちますか?
チャーンモデリングのタスクについて、私は検討していました: データのk個のクラスターを計算する 各クラスターのkモデルを個別に作成します。 その根拠は、サブスクライバの母集団が均一であることを証明するものは何もないため、データ生成プロセスが異なる「グループ」では異なる可能性があると仮定するのが妥当です 私の質問は、それは適切な方法ですか?それは何かに違反していますか、それとも何らかの理由で悪いと考えられていますか?もしそうなら、なぜですか? そうでない場合、その問題に関するいくつかのベストプラクティスを共有しますか?2つ目は、モデルツリーよりも事前クラスタリングを行う方が一般に良いか悪いかです(Witten、Frankで定義されているように、葉にモデルがある分類/回帰ツリー。 「通常の」クラスタリングよりも優れている場合はidk。

1
SVMで不均衡なマルチクラスデータセットを処理する最良の方法
かなり不均衡なデータにSVMを使用して予測モデルを構築しようとしています。私のラベル/出力には、ポジティブ、ニュートラル、ネガティブの3つのクラスがあります。ポジティブな例では、データの約10〜20%、ニュートラルでは約50〜60%、ネガティブでは約30〜40%になります。クラス間の誤った予測に関連するコストが同じではないため、クラスのバランスをとろうとしています。1つの方法は、トレーニングデータをリサンプリングし、元のデータセットよりも大きい、均等にバランスのとれたデータセットを作成することでした。興味深いことに、そうすると、他のクラスの予測が良くなる傾向があります(たとえば、データのバランスをとると、陽性クラスの例の数が増えましたが、サンプルの予測では、陰性クラスの方が優れていました)。誰もがこれが発生する理由を一般的に説明できますか?ネガティブクラスの例の数を増やすと、サンプルの予測外(たとえば、より良い予測)でポジティブクラスのようなものを取得できますか? また、誤った分類に異なるコストを課すか、LibSVMでクラスの重みを使用することによって、不均衡なデータに対処する方法に関する他の考えにも非常にオープンです(適切に選択/調整する方法はわかりません)。

1
複数の店舗にわたる数千の製品の製品需要予測
私は現在、需要予測タスクに取り組んでおり、数千の店舗にわたる数万の製品に関するデータを使用しています。より具体的には、私は各店舗の製品ごとの数年分の毎日の売上データを持っています。私の目標は、各店舗の各アイテムの将来の売上を1日先に予測することです。その後2日先など これまでは、各製品とストアのペアを1つの時系列に分解し、Neal Wagnerの論文「現実のシステムで複数の時系列を予測するインテリジェントな手法」で行われたように、各時系列の予測を行うことを検討しました。つまり、特定の店舗での製品の売上の履歴情報のみを使用して、その店舗でのその製品の将来の売上を予測します。 ただし、私はKaggleを閲覧しており、CorporacionónFavorita Grocery Sales Forecastingのような競争では、すべての店舗とすべての製品の情報を使用して将来の売上を予測するという別のアプローチが提案されています。私が理解しているように、すべての店舗のすべての製品の履歴販売情報がトレーニングセットにダンプされ、そこからモデルが学習して将来の販売を予測します。これは、従来の時系列手法とは非常に異なりますが、明らかに、競争の結果に基づいて機能します。 後者の方法は、有望でより堅牢なようです。ただし、何億ものデータポイントを処理する必要があるという問題があります。 私のタスクにより適した方法はどれですか?同様の問題に取り組んだことがある人にとって、どの方法論をお勧めしますか?

2
精度を結果指標として使用する場合の例は誤った結論につながる
予測モデルのさまざまなパフォーマンス指標を調べています。モデルのパフォーマンスを評価するためのより継続的なものではなく、精度の使用に関する問題について多くが書かれました。Frank Harrell http://www.fharrell.com/post/class-damage/は、モデルに有益な変数を追加すると、精度が低下し、明らかに直観に反し、誤った結論に至る場合の例を示しています。 ただし、この場合は、クラスの不均衡が原因であると考えられるため、代わりに((sens + spec)/ 2)のバランスの取れた精度を使用するだけで解決できます。バランスのとれたデータセットで精度を使用すると、明らかに間違った、または直観に反する結論につながる例はありますか? 編集する モデルが明らかに優れている場合でも精度が低下するもの、または精度を使用すると一部の機能が誤って選択される可能性があるものを探しています。2つのモデルの精度が同じで、他の基準を使用した方が明らかに優れている偽陰性の例を作成するのは簡単です。

2
ロングホライズン予測可能性の神話
私は最近、将来の株式市場のリターンの予測についての興味深い記事に出くわしました。著者は以下のグラフを提示し、0.913のR ^ 2を引用しています。これは著者の方法を私がこれまでにこの主題で見たことよりはるかに優れたものにするでしょう(ほとんどが株式市場は予測不可能であると主張します)。 著者は彼の方法を非常に詳細に説明し、結果を裏付けるための実質的な理論を提供します。次に、このホワイトペーパーを参照する2番目の批評的な記事「ロングホライズン予測可能性の神話」を読みました。どうやら人々は何十年もの間この幻想に陥っています。残念ながら、私はその論文を本当に理解していません。 これは私に次の質問を導きます: トレーニングとモデル検証の両方に同じデータセットを使用することにより、長期予測の誤った信頼が生じますか?トレーニングと検証のデータが別々の重複しない期間から取得された場合、問題は解消されますか? トレーニングセットの検証とは別に、なぜこの問題は長い期間にわたってより顕著になるのですか? 一般的に、長期予測を行う必要があるモデルをトレーニングする場合、この問題をどのようにして克服できますか?

2
個々の予測に対する機能の重要性/影響
モデルレベルでは、予測子の貢献度/重要度を評価するために、次を使用できます。 モデル固有の手法–たとえば、ツリーベースモデルの純度(ジニインデックス)、該当する場合はモデル係数など。 モデルに依存しない手法–順列特徴の重要性、部分的な依存性など。 これが伝えていないのは、特定の予測(たとえば、クラス1のメンバーシップの92%の確率を提供するバイナリ分類)について、その予測の作成に最も影響力のあった予測子です。 この問題について少し考えたところ、いくつかのアプローチが取れるように思えます。 モデル固有の手法–たとえば、適用可能な線形モデルの係数、XGBoostについてここで説明されているような手法(https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211) モデルに依存しない手法–たとえば、予測子を摂動してモデル化したときに予測がどのように変化するかを理解するための部分依存と同様の「摂動法」、またはこのホワイトペーパー(https://arxiv.org/)で説明されているLIMEのような手法pdf / 1602.04938.pdfおよびhttps://github.com/marcotcr/lime)、変更された順列重要度手法? 私にとって最も価値のあるアプローチは、多くのアルゴリズムのいくぶん「ブラックボックス」の性質を考慮してモデルに依存しない手法であり、新規で新しいアルゴリズムと手法を解釈する能力を提供することです。 ここ(http://amunategui.github.io/actionable-instights/index.html)で説明されている単純な方法の1つは、各予測子を取得し、「母集団」の平均を代入することによってその影響を「中和」し、予測を再度実行することです。元の予測と中立化されたバージョンとの違いを取得して、重要度を測定します。これは、上でほのめかされた一種の「摂動」法の特別な場合のようです。これに見られるいくつかの欠点は、1)各機能の「平均」(または同等のもの)を含む予測がおそらく「中間」予測であることを意味するように思われ、2)「手段」である機能」(または同等のもの)は、必ずしも影響を与えませんか? より一般的には、どの手法でも次のことを説明する必要があります。 さまざまなデータ型(数値、カテゴリなど)を処理する方法 欠損データを処理する方法 おそらく条件付きの重要性をどのように処理するか(つまり、予測子はペアでのみ重要になる場合があるなど) 計算効率(が予測子の数である場合に予測を回実行すること、またはが予測子あたりの予測数である摂動法場合などは実際に現実的です)ppppppk pkpkpkkk 問題についての緩やかでおそらく誤った考えが示されているので、人々が認識し、検討し、使用し、助言するなどの問題へのアプローチはどのようなものでしょうか。

2
ステップワイズ回帰手法はモデルの予測力を高めますか?
ステップワイズ回帰の多くの問題のいくつかを理解しています。ただし、学術的な取り組みとして、予測モデルに段階的回帰を使用したいと仮定し、それがパフォーマンスに与える影響をよりよく理解したいとします。 たとえば、線形モデルが与えられた場合、モデルで段階的回帰を実行すると、新しいデータが提示されたときにモデルの予測力が増加または減少する傾向がありますか? ステップワイズ回帰が予測能力に及ぼす理論的な影響はありますか? 実践的な経験も役立ちます。おそらく、ステップワイズ回帰が予測を向上させる状況とそうでない状況です。

1
AICがある場合に、予測プロパティを評価するためにデータをトレーニングパーツとテストパーツに分割するポイントは何ですか?
漸近的に、AICを最小化することは、断面データの1対1の交差検証MSEを最小化することと同じです[ 1 ]。それでは、AICがある場合、モデルの予測特性を測定するために、データをトレーニング、検証、テストセットに分割する方法を使用するのはなぜですか?このプラクティスの利点は具体的には何ですか? 1つの理由が考えられます。モデルの予測パフォーマンスを評価したい場合、サンプル外分析が役立ちます。ただし、AICは予測の正確さの尺度ではありませんが、通常、モデルがどれだけ適切に予測できるかという点で、あるモデルがそのデータの最大の可能性に達している場合(データが示されている場合)には良い考えがあります。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.