タグ付けされた質問 「prediction」

統計モデルを使用して、未知の乱数の予測。


9
現実の単一の将来のイベントの確率:「ヒラリーは75%の確率で勝つ」と言うとき、それはどういう意味ですか?
選挙は1回限りのイベントであるため、繰り返すことのできる実験ではありません。「ヒラリーは勝つ可能性が75%ある」という言葉は、厳密には技術的に何を意味するのでしょうか?直感的または概念的な定義ではなく、統計的に正しい定義を求めています。 私は、アマチュア統計のファンであり、議論の中で出てきたこの質問に答えようとしています。客観的な反応があると確信していますが、自分で考え出すことはできません...

6
2016年に本当に必要な予測モデリングの変数選択?
この質問はCVで数年前に尋ねられました。1)より優れたコンピューティングテクノロジー(例:並列コンピューティング、HPCなど)と2)新しいテクニック、たとえば[3]を考慮すると、再投稿する価値があるようです。 まず、いくつかのコンテキスト。目標が仮説のテストではなく、効果の推定ではなく、見えないテストセットの予測であると仮定しましょう。したがって、解釈可能な利益に重みは与えられません。第二に、主題の検討における予測子の関連性を排除できないとしましょう。それらはすべて個別に、または他の予測因子と組み合わせてもっともらしいようです。第三に、数百(数百)の予測子に直面しています。第4に、AWSに無制限の予算でアクセスできるため、計算能力が制約にならないとします。 変数選択の通常の理由は、1)効率です。より小さなモデルをより速く適合させ、より少ない予測変数をより安価に収集する、2)解釈; 「重要な」変数を知ることで、基礎となるプロセスの洞察が得られます[1]。 現在、多くの変数選択方法が効果的でなく、しばしば完全に危険であることが広く知られています(例えば、前方段階的回帰)[2]。 次に、選択したモデルが適切であれば、予測子のリストをまったく削減する必要はありません。モデルはあなたのためにそれを行う必要があります。良い例は、すべての無関係な変数にゼロ係数を割り当てるなげなわです。 一部の人々は「象」モデルの使用を支持していることを知っています。考えられるすべての予測変数を適合に投げ込み、それで実行します[2]。 目標が予測精度である場合、変数選択を行う根本的な理由はありますか? [1] Reunanen、J.(2003)。変数選択方法を比較する際の過剰適合。Journal of Machine Learning Research、3、1371-1382。 [2] Harrell、F.(2015)。回帰モデリング戦略:線形モデル、ロジスティックおよび順序回帰、および生存分析への応用。スプリンガー。 [3] Taylor、J。、およびTibshirani、RJ(2015)。統計的学習と選択的推論。国立科学アカデミー論文集、112(25)、7629-7634。 [4] Zhou、J.、Foster、D.、Stine、R.、&Ungar、L.(2005、August)。アルファ投資を使用したスト​​リーミング機能の選択。データマイニングにおける知識の発見に関する第11回ACM SIGKDD国際会議の議事録(pp。384-393)。ACM。

9
このチャートは、テロ攻撃の可能性を統計的に示していますか?
私はこの画像が頻繁に渡されるのを見ています。 私はこの方法で提供された情報が何らかの形で不完全である、または誤っていることさえあるという直感を持っていますが、私は応答するのに十分な統計に精通していません。このxkcdコミックについて考えると、確かな履歴データがあっても、状況によって予測方法が変わることがあります。 提示されたこのチャートは、難民からの脅威レベルを正確に示すのに役立ちますか?このチャートを多かれ少なかれ有用にする必要な統計的コンテキストはありますか? 注:素人の言葉でそれを保つようにしてください:)

6
Rを使用した投げ縄予測の標準誤差
予測にLASSOモデルを使用しようとしていますが、標準誤差を推定する必要があります。きっと誰かがこれを行うためのパッケージをすでに書いています。しかし、私が見る限り、LASSOを使用して予測を行うCRANのパッケージはいずれも、それらの予測の標準エラーを返しません。 だから私の質問は次のとおりです。LASSO予測の標準エラーを計算するために利用可能なパッケージまたはRコードはありますか?

5
時系列予測に深層学習を使用する
私はディープラーニングの分野で新しく、最初のステップはdeeplearning.netサイトから興味深い記事を読むことでした。ディープラーニングに関する論文では、ヒントンと他の人は主にそれを画像の問題に適用することについて話します。誰かが私に答えようとすることができますか?それは時系列値(金融、インターネットトラフィックなど)を予測する問題に適用できますか?それが可能であれば私が焦点を当てる必要がある重要なことは何ですか?

5
コックス回帰の予測
多変量Cox回帰を行っています。重要な独立変数とベータ値があります。モデルは私のデータに非常によく適合しています。 次に、モデルを使用して、新しい観測の生存を予測したいと思います。Coxモデルを使用してこれを行う方法は不明です。線形回帰またはロジスティック回帰では、新しい観測の値を回帰に入れ、それらにベータを掛けるだけで簡単になり、結果を予測できます。 ベースラインの危険性を判断するにはどうすればよいですか?予測の計算に加えて、それが必要です。 これはCoxモデルでどのように行われますか?

2
Rのlmer()混合効果モデルの予測間隔
lmer()モデルからの予測の周りの予測区間を取得したい。これに関する議論を見つけました。 http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq しかし、それらはランダム効果の不確実性を考慮していないようです。 以下に具体例を示します。私は金の魚をレースしています。過去100レースのデータがあります。RE推定値とFE推定値の不確実性を考慮して、101番目を予測したい。魚のランダムインターセプト(10種類の魚があります)と、重量の固定効果(重い魚が少ないほど速い)を含めています。 library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat <- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 <- lmer(time …

2
予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか?
統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します(図6.9)。 なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません(例でMSEが大幅に低下するのはどうですか?)。 リッジでは、多くの予測子が応答にほとんど影響を与えない場合(少数の予測子が大きな効果を持つ場合)、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ?それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか?

8
予測と推論の違いは何ですか?
私は " 統計学入門 "を読んでいます。第2章では、関数を推定する理由について説明します。fff 2.1.1なぜ推定?fff 我々が推定することを望むかもしれない2つの主な理由がありますfは:予測と推論。それぞれについて順に説明します。 何度か読みましたが、予測と推論の違いについてはまだ部分的に不明確です。誰かが違いの(実用的な)例を提供できますか?

3
ロジスティック回帰におけるオッズ比に対する単純な予測の解釈
私はロジスティック回帰を使用するのはやや新しいですが、次の値の解釈が同じだと思ったのに矛盾があるため、少し混乱しています。 指数化されたベータ値 ベータ値を使用した結果の予測確率。 これは私が使用しているモデルの簡易版です。栄養不足と保険は両方ともバイナリであり、富は連続しています。 Under.Nutrition ~ insurance + wealth 私の(実際の)モデルは、保険のために.8の指数化されたベータ値を返します。 「被保険者の栄養不足の確率は、保険のない個人の栄養不足の確率の0.8倍です。」 ただし、0と1の値を保険変数と富の平均値に入れることで個人の確率の差を計算すると、栄養不足の差はわずか.04です。次のように計算されます。 Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) これらの値が異なる理由と、(特に2番目の値について)より良い解釈が何かを誰かが説明できれば、本当に感謝しています。 さらなる明確化の編集 私が理解するように、無保険の人(B1は保険に相当する)の栄養不足の可能性は次のとおりです。 Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 被保険者の栄養不足の可能性は次のとおりです。 Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
Sklearn混同マトリックスをどのように解釈できますか
私が使用してい混同行列を私の分類器のパフォーマンスをチェックします。 私はScikit-Learnを使用していますが、少し混乱しています。どのようにして結果を解釈できますか from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) この予測値が良好であるかどうかを判断するにはどうすればよいですか。


2
予測推論には、どのような非ベイジアン手法がありますか?
ベイジアン推論では、未知のパラメーターを統合することにより、将来のデータの予測分布が導出されます。これらのパラメーターの事後分布を統合すると、事後予測分布が得られます。これは、既に観測されたデータを条件とする将来のデータの分布です。パラメーター推定値の不確実性を考慮する予測推論の非ベイジアン手法は何ですか(つまり、最尤推定値や密度関数に戻るものを単にプラグインしない)。 線形回帰後の予測間隔の計算方法は誰もが知っていますが、計算の背後にある原理は何ですか?他の状況でそれらをどのように適用できますか(たとえば、データからレートパラメーターを推定した後に新しい指数変量の正確な予測間隔を計算する)?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.