統計とビッグデータ prediction

3

特に2.11および2.12の導出（条件付け、ポイントワイズ最小へのステップ）について、以下の予想予測誤差（ESL）の導出を理解するのに苦労しています。ポインタまたはリンクは大歓迎です。以下に、ESL pgからの抜粋を報告します。18.最初の2つの式は、順番に式2.11と2.12です。ましょX∈RpX∈RpX \in \mathbb{R}^p表す実数値ランダム入力ベクトル、および関節分布を有する実数値ランダム出力変数、。入力値を与えられたを予測するための関数を探します。この理論では、予測でエラーにペナルティを課すために損失関数必要であり、最も一般的で便利なのは2乗エラー損失です：。これは、を選択する基準につながります。Y∈RY∈RY \in \mathbb{R}Pr(X,Y)Pr(X,Y)\text{Pr}(X,Y)f(X)f(X)f(X)YYYXXXL （Y 、F （X ）） L(Y,f(X))L(Y,f(X))L(Y,f(X))L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split} 予想される（2乗）予測誤差。条件付けることにより、EPEを次のように記述できます。XXX EPE(f)=EXEY|X([Y−f(X)]2|X)EPE(f)=EXEY|X([Y−f(X)]2|X) \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X) EPEをポイント単位で最小化するだけで十分であることがわかります。 f(x)=argmincEY|X([Y−c]2|X)f(x)=argmincEY|X([Y−c]2|X) f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X) 解決策は f(x)=E(Y|X=x)f(x)=E(Y|X=x) f(x) = \text{E}(Y|X=x) 条件付き期待値、回帰関数とも呼ばれます。

20 regression prediction error

3

ネイトシルバーの予測の正確さをどのように判断できますか？

まず、彼は結果の確率を与えます。そのため、たとえば、米国の選挙に対する彼の予測は、現在クリントンが82％対トランプが18％です。今、トランプが勝ったとしても、彼が勝ったはずの時間の18％だけではなかったことをどうやって知るのですか？もう1つの問題は、彼の確率が時間とともに変化することです。7月31日、トランプとクリントンの間はほぼ50対50でした。私の質問は、彼は同じ結果で同じ将来のイベントに対して毎日異なる確率を持っていることを考えると、その日まで利用可能な情報に基づいて予測を行った毎日の正確さをどのように測定できますか？

19 forecasting prediction validation accuracy scoring-rules

2

弾性/尾根/なげなわ分析、それでは何ですか？

予測子の収縮/選択のためのエラスティックネット手順に本当に興味を持っています。非常に強力なようです。しかし、科学的な観点からは、係数を取得したらどうすればよいかわかりません。どんな質問に答えていますか？これらはその結果に最も影響を与える変数であり、これらは検証中に最良の分散/バイアス比を与える係数ですか？これはもちろん、古典的なp値/信頼区間アプローチと比較して非常に記述的/予測的なアプローチです。推論推定は現在Tibshirani＆Co.によって研究されていますが、まだ実験的です。一部の人々は、エラスティックネットによって選択された変数を使用して古典的な推論分析を実行していますが、これにより、手法によってもたらされる分散の制限がなくなります。もう1つの問題は、エラスティックネットのラムダおよびアルファパラメーターが相互検証によって選択されるため、ランダムな変動の影響を受けることです。したがって、cv.glmnet（）を実行するたびに、常に異なる係数を持つ予測子のわずかに異なるサブセットを選択します。正しいラムダとアルファをランダム変数として考慮してこれを解決し、クロス検証ステップをn回再実行して、これらのパラメータの分布を取得することについて考えました。このように、すべての予測子に対して発生回数があり、すべての係数に対して結果の分布があります。これにより、範囲統計（係数のsdなど）でより一般化可能な結果が得られるはずです。ラムダとアルファがこのように選んだ分布が漸近的に近似するかどうかを確認することも興味深いでしょう。完全に理解していない）。最後に私の質問は次のとおりです。アルファとラムダに基づいた相互検証を使用してエラスティックネットから予測子と係数を取得したら、これらの結果をどのように表示する必要がありますか。それらについてどのように議論すべきですか？何を学びましたか？私たちはどの仮説/一般化を確信していますか？

19 hypothesis-testing prediction inference lasso elastic-net

2

ggplot2で回帰直線を予測または拡張する方法は？

Emacsの日付とバージョン番号とFirefoxのリリースという2つの時系列を含むデータフレームがあります。1つのggplot2コマンドを使用すると、ポイントを線に変換するために黄土を使用したグラフを簡単に作成できます（少しおもしろそうですが、気にしませんが）。将来的にラインを拡張するにはどうすればよいですか？EmacsとFirefoxのバージョン番号がいつどこで交差するかを判断したいと思います。エラー範囲を表示する方法があれば、さらに良い結果が得られます。 ggplot2がラインをプロットしていることを考えると、モデルを持っている必要がありますが、ラインを延長したり、モデルを取り出してそれで何かをするように指示する方法がわかりません。 > library(ggplot2) > programs <- read.csv("http://www.miskatonic.org/files/se-program-versions.csv") > programs$Date <- as.Date(programs$Date, format="%B %d, %Y") > head(programs) Program Version Date 1 Emacs 24.1 2012-06-10 2 Emacs 23.4 2012-01-29 3 Emacs 23.3 2011-03-10 4 Emacs 23.2 2010-05-08 5 Emacs 23.1 2009-07-29 6 Emacs 22.3 2008-09-05 > head(subset(programs, Program == "Firefox")) …

17 prediction ggplot2

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

時系列のこの予測が「かなり悪い」のはなぜですか？

ニューラルネットワークの使用方法を学習しようとしています。私はこのチュートリアルを読んでいました。値を用いて、時系列にニューラルネットワークを適合した後にでの値を予測するために著者は青い線は、時系列であり、以下のプロットを取得し、緑色列データに予測され、赤色でありますテストデータの予測（テストトレイン分割を使用）tttt + 1t+1t+1 「トレーニングデータセットとテストデータセットの両方を適合させるという、モデルの仕事がかなり貧弱だったことがわかります。基本的に、出力と同じ入力値を予測しました。」次に、著者は、およびを使用して値を予測することにしました。そうすることで取得tttt − 1t−1t-1t − 2t−2t-2t +1t+1t+1 「グラフを見ると、予測にさらに構造が見られる」と言います。私の質問最初の「貧しい」のはなぜですか？私にはほとんど完璧に見えますが、すべての単一の変化を完全に予測します！同様に、なぜ2番目の方が優れているのでしょうか？「構造」はどこにありますか？私にとっては、最初のものよりもずっと貧しいようです。一般に、時系列の予測はいつ良いのか、いつ悪いのか？

15 time-series neural-networks predictive-models deep-learning prediction

3

ゼロで凝集する非負データのモデル（Tweedie GLM、ゼロで膨張したGLMなど）は正確なゼロを予測できますか？

Tweedie分布は、パラメーター（平均分散関係の指数）が1〜2の場合、点質量がゼロの歪んだデータをモデル化できます。ppp 同様に、ゼロで膨らんだ（そうでなければ連続的または離散的）モデルは、多数のゼロを持つ場合があります。これらの種類のモデルを使用して予測または近似値を計算すると、予測値がすべてゼロ以外になるのはなぜなのか理解できません。これらのモデルは実際に正確なゼロを予測できますか？例えば library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

15 r generalized-linear-model prediction zero-inflation tweedie-distribution

3

`predict.randomForest`はクラスの確率をどのように推定しますか？

randomForestパッケージを使用すると、クラスの確率はどのように推定されますpredict(model, data, type = "prob")か？確率を予測する引数をranger使用してランダムフォレストをトレーニングするために使用していましたprobability = T。rangerドキュメントでそれを言う： Malleyらのように確率の森を育てます。（2012）。いくつかのデータをシミュレートし、両方のパッケージを試して、非常に異なる結果を得ました（以下のコードを参照）だから、私はそれが確率を推定するために異なるテクニック（そしてレンジャー）を使用することを知っています。しかし、どれですか？ simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) dplyr::bind_cols(X, Y) } treino <- simulate_data(10000) teste <- simulate_data(10000) …

15 r random-forest prediction

4

予測モデル：統計はおそらく機械学習に勝るものはありませんか？[閉まっている]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 2年前に閉店。私は現在、統計学/計量経済学に焦点を当てたマスタープログラムをフォローしています。私のマスターでは、すべての学生が3か月の研究をしなければなりませんでした。先週、すべてのグループは研究を他のマスター学生に提示しなければなりませんでした。ほとんどすべてのグループが、研究トピックの統計モデリングと機械学習モデリングを行い、サンプル外れの予測が行われるたびに、単純な機械学習モデルが、最後の3年間非常に懸命に取り組んだ非常に洗練された統計モデルを打ち負かしましたヶ月。みんなの統計モデルがどれほど優れていても、単純なランダムフォレストでは、ほとんど常にサンプル外エラーが少なくなりました。これが一般に受け入れられている観測かどうか疑問に思っていましたか？サンプル外予測に関しては、単純なランダムフォレストまたは極端な勾配ブースティングモデルに勝つ方法はないということです。これらの2つの方法は、Rパッケージを使用して実装するのが非常に簡単ですが、誰もが思いついたすべての統計モデルには、かなりのスキル、知識、および見積もりの労力が必要です。これについてどう思いますか？あなたが解釈を得る統計/計量経済学モデルの唯一の利点はありますか？または、単純なランダムフォレストの予測を大幅に上回るパフォーマンスを達成できなかったほど、モデルが不十分でしたか？この問題に対処する論文はありますか？

14 machine-learning forecasting predictive-models prediction out-of-sample

1

重み付き相関などですか？

ストリーミング配信された最も人気のある音楽アーティストに関する興味深いデータを、場所ごとに約200の議会地区に分割しています。音楽の好みについて人に投票して、その人が「民主党員のように聞く」のか、「共和党員のように聞く」のかを判断できるかどうかを見たい。（当然、これは簡単ですが、データには実際のエントロピーがあります！）約100人のアーティストに関するデータに加えて、過去3回の選挙サイクルにおける各地区の共和党員と民主党員の平均投票率があります。そこで、各アーティストについて相関関係を調べ、どのアーティストが最も不釣り合いに聴かれているかを、民主党の投票シェアの関数として調べました。これらの相関関係は、どのアーティストでも約-0.3から0.3の範囲であり、中間には予測力がほとんどまたはまったくないものがたくさんあります。 2つの質問があります。1つ目は、地区ごとのストリームの総数は大きく異なります。現在、私は、たとえばビヨンセに属する地区ごとのすべてのストリームの割合を、民主党に投じられた票の割合と相関させています。しかし、ある地区の総河川は数百万、もう1つの地区は100,000の低さです。これを説明するために、どういうわけか相関に重みを付ける必要がありますか？第二に、これらの相関関係を組み合わせて、ユーザーの政治に関する複合的な推測を行う方法に興味があります。絶対相関値が最も高い20人のアーティスト（正と負）をそれぞれの方向に10人ずつ取り、各アーティストがどれだけ好きかについてユーザーに投票するとします。したがって、私は各アーティストに賛成または反対票を投じ、さらに20の価値すべてに対する政治との相関関係を持っています。これらの相関を単一の推定値に結合する標準的な方法はありますか？（私はNYTimesの有名な方言クイズのようなものを考えています。そこでは25の質問に対する地域の確率をヒートマップに結合しました。しかしこの場合、音楽に対する民主党や共和党員の好みに関する単一の値が必要です。ありがとうございました！

14 correlation prediction pooling weighted-data

3

Cox PHモデルから生存時間に関する予測を取得する方法は？

フォローアップの終わり（例：1年）で（ほぼ）全員が死亡した参加者のデータセットにおける全原因死亡率の予測モデル（Cox PH）を開発したい。特定の時点で死亡する絶対的なリスクを予測する代わりに、各個人の生存期間（月単位）を予測したいと思います。 Rでそのような予測を取得することは可能ですか（たとえばcoxphオブジェクトから）、はいの場合、どうすればそれを行うことができますか？事前に感謝します！

14 survival prediction cox-model

1

ある時系列を別の時系列から予測する方法（関連している場合）

私はこの問題を一年以上解決しようとしてきましたが、あまり進歩していません。これは私が行っている研究プロジェクトの一部ですが、問題の実際の領域は少しわかりにくい（視線追跡）ので、作成したストーリーの例で説明します。あなたは海を横断する敵船を追跡する飛行機なので、船の一連の（x、y、time）座標を収集しました。隠された潜水艦は船を保護するために船と一緒に移動しますが、その位置に相関関係がありますが、潜水艦はしばしば船から離れてさまよいます。そのため、しばしば潜水艦は近くにありますが、たまに世界。あなたは潜水艦の進路を予測したいのですが、残念ながらそれはあなたから隠されています。しかし、4月の1か月間、潜水艦が自分自身を隠すのを忘れていることに気付くので、1,000回の航海を通じて潜水艦と船の両方の一連の座標があります。このデータを使用して、船の動きだけを考慮して、潜水艦の経路を予測するモデルを作成します。素朴なベースラインは「潜水艦の位置の推測=「船の現在の位置」と言うことですが、潜水艦が見える4月のデータから、潜水艦が少し船の前方にいる傾向があることに気づくでしょう。さらに、4月のデータは、船が長時間水に沈むと、潜水艦が沿岸水域をパトロールしている可能性が高いことを示しています。他のパターンもあります。もちろん。 4月のデータをトレーニングデータとして、このモデルをどのように構築して、潜水艦の進路を予測しますか？私の現在の解決策は、因子が「旅行時間」、「船のx座標」、「1日間船が遊休した」などのアドホック線形回帰であり、Rに重みを計算させ、相互検証を実行します。。しかし、4月のデータからこれらの要因を自動的に生成する方法が本当に欲しいです。また、線形回帰はそうではなく、関連性があると思うので、シーケンスまたは時間を使用するモデルがいいでしょう。これをすべて読んでくれてありがとう、私は何でも明確にしたいと思います。

14 time-series machine-learning prediction

1

キャレットglmnetとcv.glmnet

glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。次のような多くの質問が提起されました。分類モデルtrain.glmnet対cv.glmnet？キャレットでglmnetを使用する適切な方法は何ですか？「キャレット」を使用して「glmnet」を相互検証するしかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります：推定されるラムダはなぜそんなに違うのですか？ library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

2

入力データの近傍情報の使用またはオフデータの検索（R）

最近傍が最適な予測子であるという仮定のデータセットがあります。視覚化された双方向グラデーションの完璧な例欠落している値がほとんどない場合があると仮定すると、近傍と傾向に基づいて簡単に予測できます。 Rの対応するデータマトリックス（トレーニングのダミーの例）： miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

13 r prediction outliers data-imputation multiple-imputation

1

モデルがスケーリングされたデータに適合したときに予測を行うために、新しい観測をスケーリングする方法は？

データ行列をスケーリングして線形回帰モデルで使用する概念を理解しています。たとえば、Rでは次を使用できます。 scaled.data <- scale(data, scale=TRUE) 私の唯一の質問は、出力値を予測する新しい観測値について、それらをどのように正しくスケーリングするかです。そうでしょうscaled.new <- (new - mean(data)) / std(data)か？

13 r regression prediction scales

タグ付けされた質問 「prediction」

タグ付けされた質問「prediction」