タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。


1
ネイト・シルバーが黄土について言ったことの説明
私が最近尋ねた質問で、私はそれが黄土で外挿するのは大きな「ノー」だと言われました。しかし、Nate SilverのFiveThirtyEight.comに関する最新の記事では、選挙の予測に黄土を使用することについて議論しました。 彼はレスで積極的な予測と保守的な予測の詳細を議論していましたが、私はレスで将来の予測を行うことの妥当性について興味がありますか? また、私はこの議論と、黄土と同様の利点があるかもしれない他の選択肢があることに興味があります。

3
モデルの予測確率のキャリブレーションを視覚化する
各インスタンスについて、各クラスの確率を生成する予測モデルがあるとします。現在、これらの確率を分類(精度、リコールなど)に使用する場合、そのようなモデルを評価する方法はたくさんあることを認識しています。また、ROC曲線とその下の領域を使用して、モデルがクラスをどれだけ区別できるかを判断できることも認識しています。それらは私が尋ねているものではありません。 モデルのキャリブレーションを評価することに興味があります。 ブリアスコアのようなスコアリングルールは、このタスクに役立つことがわかっています。それは大丈夫です、そして、私はそれらの線に沿って何かを組み込む可能性が高いですが、私はそのようなメトリックが素人にとってどれほど直感的であるかわかりません。もっと視覚的なものを探しています。結果を解釈する人に、モデルが何かを予測したときに、実際に70%の確率で70%が発生する可能性があるかどうかを確認できるようにしてほしい QQプロットのことを聞いたことがありますが(使用したことはありません)、最初はこれが私が探しているものだと思いました。ただし、実際には2つの確率分布を比較することを目的としているようです。それは直接私が持っているものではありません。多数のインスタンスについて、予測された確率と、イベントが実際に発生したかどうかがわかります。 Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... QQプロットは本当に欲しいものですか、それとも何か他のものを探していますか?QQプロットを使用する必要がある場合、データを確率分布に変換する正しい方法は何ですか? 予測された確率で両方の列を並べ替えて、いくつかのビンを作成できると思います。それは私がやるべきことのタイプですか、それとも私はどこかで考えていますか?私はさまざまな離散化手法に精通していますが、この種の標準的なビンに離散化する特定の方法はありますか?

3
予測モデリング競技のサイト
私は上の予測モデリングコンテストに参加Kaggle、TunedIt、およびCrowdAnalytix。これらのサイトは、統計/機械学習の「トレーニング」に適した方法であることがわかりました。 他に知っておくべきサイトはありますか? 主催者が競合他社の投稿から利益を得ようとする競技について、皆さんはどのように感じていますか? /編集:より完全なリストは次の とおり です:Kaggle TunedIt Clopinte KDD Cup Innocentive Crowdanalytix Topcoder


3
トレーニングとして肯定的なケースのみで結果を予測する方法は?
簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。 20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率(またはp値)です。 この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか? 現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか? より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか?教師なし学習アプローチに限定されていますか?半教師あり方法はどうですか?

2
一般的なデータセットのデータ増強技術?
多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。100100100 画像の場合、データの増加は比較的簡単です。ただし、(たとえば)サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか?100100100

2
StackExchangeの質問に対する「興味深い」機能
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 8年前に移行され ました。 StackExchangeサイトのデータマイニングパッケージを作成しようとしています。特に、「最も興味深い」質問を決定しようとしています。質問スコアを使用したいが、ビューの数に起因するバイアスを削除したいが、これに厳密にアプローチする方法がわからない。 理想的な世界では、計算することで質問を並べ替えることができます。ここで、は総投票数、は視聴回数です。結局、質問に賛成票を投じた人の割合から、質問に反対票を投じた人の割合を引いたものを測定します。 vnvnvn\frac{v}{n}vvvnnn 残念ながら、投票パターンははるかに複雑です。投票は一定のレベルまで「停滞」する傾向があり、これは非常に人気のある質問を大幅に過小評価する効果があります。実際には、1回のビューと1回の賛成票を持つ質問は、確実にスコアが付けられ、10,000回のビューを持つが10,000票未満のその他の質問よりも高くソートされます。 現在、を経験式として使用していますが、正確にしたいと思います。数学的な厳密さでこの問題にどのようにアプローチできますか?vログn +1vlog⁡n+1\frac{v}{\log{n}+1} コメントのいくつかに対処するために、より良い方法で問題を再度説明しようとします。 合計票とビューの質問があるとします。ビューが達したときに、合計投票数が最も高いと推定できるものを作成したいと思います。n 0 v 1 n 1v0v0v_0n0n0n_0v1v1v_1n1n1n_1 このようにして、名目値を選択し、予想される合計に従ってすべての質問をことができます。v 1n1n1n_1v1v1v_1 SOデータダンプで2つのクエリを作成し、私が話している効果をより良く示します。 スコア別平均視聴回数 結果: ビュー別の平均スコア(100ビューバケット) 結果: 比較した2つの式 結果ではなく、確か真っ直ぐが優れている場合:(青色で、赤) vvnvn\frac{v}{n}vL O Gn +1vlogn+1\frac{v}{log{n}+1}

2
過適合についてのベイジアン思考
私は、従来の頻度主義統計ドメインで予測モデルを検証するための方法とソフトウェアの開発に多くの時間を費やしました。より多くのベイジアンのアイデアを実践と教育に取り入れる際に、受け入れるべき重要な違いがいくつかあると思います。まず、ベイジアン予測モデリングはアナリストに、候補の特徴に合わせてカスタマイズできる事前分布についてよく考えるように頼みます。これらの事前分布は、モデルをそれらに引き寄せます)。第二に、「実際の」ベイジアンの方法では、単一のモデルにはなりませんが、予測のために事後分布全体を取得します。 これらのベイジアン機能を念頭に置いて、過剰適合とはどういう意味ですか?評価すべきでしょうか?もしそうなら、どのように?ベイズのモデルが野外での使用に信頼できるときはどのようにして知ることができますか?それとも、予測のために開発したモデルを使用すると、事後はすべての注意を与える不確実性に沿って進むので、それは重要なポイントですか? ベイジアンモデルを単一の数値、たとえば事後平均/最頻値/中央値リスクに蒸留するように強制した場合、考え方はどのように変わりますか? ここに関連する考え方があります。パラレル議論を見つけることができるここに。 フォローアップの質問::完全にベイジアンであり、データを見る前に事前確率について考えるのに時間を費やし、データ尤度が適切に指定されたモデルに適合した場合、過剰適合に関してモデルに満足することを強いられますか?または、ランダムに選択された対象が平均して十分に予測される可能性のある頻繁な世界で行うことを行う必要がありますが、予測が非常に低い対象または予測値が非常に高い対象を選択すると、回帰が発生しますという意味ですか?

2
ブースティング:学習率が正則化パラメーターと呼ばれるのはなぜですか?
学習率パラメータ(収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配)。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν∈ [ 0 、1 ]ν∈[0,1]\nu \in [0,1] なぜ学習率が正則化パラメーターと見なされるのかわかりませんか?統計学習の要素の引用、セクション10.12.1、p.364: 可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい (収縮が大きい)と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν Mνν\nuMMMνν\nuMMM 正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです(Mが大きすぎると過適合になります)。しかし:MMMMMM 値が小さい(収縮が大きい)と、同じ反復回数Mのトレーニングリスクが大きくなります。νν\nuMMM これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか?

1
予測モデリング-混合モデリングを気にする必要がありますか?
予測モデリングの場合、ランダム効果や観測の非独立性(反復測定)などの統計概念に関心を持つ必要がありますか?例えば.... 5つのダイレクトメールキャンペーン(1年間で発生)のさまざまな属性と購入フラグ付きのデータがあります。理想的には、これらすべてのデータを組み合わせて使用​​し、キャンペーンの時点で顧客の属性を考慮した購入モデルを構築します。その理由は、購入のイベントがまれであり、できるだけ多くの情報を使用したいからです。特定の顧客が1〜5個のキャンペーンに参加する可能性があります。つまり、レコード間に独立性がないことを意味します。 以下を使用する場合、これは重要ですか? 1)機械学習アプローチ(例、ツリー、MLP、SVM) 2)統計的アプローチ(ロジスティック回帰)? **ADD:** 予測モデリングに関する私の考えは、モデルが機能する場合、それを使用することです。そのため、仮定の重要性を本当に考えたことはありません。上記のケースについて考えると、私は不思議に思いました。 などの機械学習アルゴリズムを使用しMLP and SVMます。これらは、上記の例のようなバイナリイベントのモデル化に使用されますが、時系列データも明確に相関しています。ただし、多くの場合、尤度であり、エラーがiidであると仮定して導出される損失関数を使用します。たとえば、Rの勾配ブーストされたツリーはgbm、二項(ページ10)から派生した逸脱損失関数を使用します。

2
前のイベントの時間に基づいて、次のイベントがいつ発生するかを予測する方法は?
私は高校生で、コンピュータープログラミングプロジェクトに取り組んでいますが、高校の統計コース以外の統計やモデリングデータの経験はあまりないので、ちょっと混乱しています。 基本的に、私は誰かがドキュメントを印刷することを決めた時間のかなり大きなリストを持っています(統計的なテストや測定の仮定を満たすのに十分大きいと仮定します)。このリストに基づいて、以前のすべてのイベント時間を考慮して、次の印刷ジョブの最も可能性の高い時間を予測するある種の統計モデルを構築したいと思います。 私はすでにこれを読んでいますが、回答は私のプロジェクトで私が念頭に置いていることを正確に助けません。いくつかの追加調査を行った結果、隠れマルコフモデルを使用すると正確に行うことができる可能性が高いことがわかりましたが、時間のリストだけを使用して隠れマルコフモデルを生成する方法に関するリンクは見つかりません。また、リストでカルマンフィルターを使用すると便利な場合があることもわかりましたが、基本的には、実際にそれらを使用し、制限や要件を知っている人から、何かを試して動作することを期待する前に、それに関する詳細情報を取得したいと思います。 本当にありがとう!

4
線形関数、指数関数、および対数関数から最適な曲線近似関数を決定する
環境: Mathematics Stack Exchange (プログラムを構築できますか?)の質問から、誰かが点のセットを持ち、それに線形、指数、または対数曲線を当てはめたいと思っています。通常の方法は、これらのいずれか(モデルを指定)を選択して開始し、統計計算を実行することです。x − yバツ−yx-y しかし、本当に求められているのは、線形、指数、または対数から「最良の」曲線を見つけることです。 表向きは、3つすべてを試して、最適な相関係数に従って3つの最適な曲線を選択できます。 しかし、どういうわけか私はこれが全くコーシャーではないと感じています。一般的に受け入れられている方法は、最初にモデルを選択し、3つのうちの1つ(または他のリンク関数)を選択してから、データから係数を計算します。そして、事実上の最高のピッキングはチェリーピッキングです。しかし、データから関数または係数を決定するかどうかは同じですが、あなたの手順は最高の...ものを発見しています(どの関数が別の係数であるかを発見してみましょう)。 質問: 適合統計の比較に基づいて、線形、指数、および対数モデルから最適なモデルを選択することは適切ですか? もしそうなら、これを行うための最も適切な方法は何ですか? 回帰が関数内のパラメーター(係数)を見つけるのに役立つ場合、3つの曲線族のどれが最適であるかを選択する離散パラメーターがないのはなぜですか?

3
線形モデルでの予測限界の式の取得(例:予測間隔)
次の例を見てみましょう。 set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) これにより、OLS回帰を使用して、x1およびx2に基づいてyのモデルが作成されます。与えられたx_vecのyを予測したい場合は、から取得する式を使用できsummary(fit)ます。 ただし、yの下位予測と上位予測を予測する場合はどうでしょうか。(所定の信頼レベル)。 それでは、式をどのように構築しますか?

1
predict.coxphの出力を解釈する方法は?
coxmodelを近似した後、予測を行い、新しいデータの相対的なリスクを取得することができます。私が理解していないのは、個人の相対リスクがどのように計算され、それが何に関連するのか(つまり、人口の平均)ですか?理解を助けるためのリソースに関する推奨事項(サバイバル分析はあまり進歩していないので、単純であるほど良いですか?)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.