統計とビッグデータ prediction

3

機械学習手法を使用する場合、時系列データをトレンド除去およびリサイクルする必要がありますか？

例えば： ANNやSVMを使用して、複数の時系列の以前の値に基づいて時系列の将来の値を予測したい。入力は各時系列からの遅れた値であり、出力は1ステップ先の予測になります（これまでの予測を使用して予測を前方に「ローリング」することにより、さらなる視野を持つ予測が行われます）。さて、SVMとANNはトレンドとサイクルを学習できてはなりませんか？「他のすべてが等しい場合、このシリーズの出力は前の出力の2倍になるはずです」などのことを学習できませんか？または、月のカテゴリ変数を指定した場合、「1月なので、行った予測を2で割りますか？」データをリサイクルおよびトレンド除去しようとすると、必要以上にバイアスがかかりますか？

9 time-series machine-learning stationarity prediction

3

意図的な過剰適合

意図的にモデルをオーバーフィットすることは理にかなっていますか？データがトレーニングデータに対してそれほど変わらないことがわかっているユースケースがあるとします。私はここで交通予測について考えています。交通状況は一定のパターンのセットに従います朝の通勤夜の活動等々。これらのパターンは、自動車ユーザーの急増や道路インフラの大きな変化がない限り、あまり変わりません。この場合、将来のパターンとデータが非常に類似すると想定して、モデルが現在のデータで学習したパターンにできるだけ偏るようにしたいと思います。

8 machine-learning time-series forecasting prediction overfitting

1

通常のクリギングの例

geoRand gstat（およびautomap）の両方を使用した空間クリギングのチュートリアルをオンラインで実行しました。空間クリギングを実行でき、その背後にある主要な概念を理解しています。セミバリオグラムを作成する方法、モデルをそれに適合させる方法、および通常のクリギングを実行する方法を知っています。私が理解していないのは、周囲の測定値の重みがどのように決定されるかです。私はそれらがセミバリオグラムから派生し、予測位置からの距離と測定された点の空間配置に依存していることを知っています。しかし、どうやって？誰もが3つのランダムな測定点と1つの予測位置を使用して通常のクリギング（非ベイジアン）モデルを作成できますか？それは啓発的でしょう。

8 prediction spatial weights kriging

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

ネイトシルバーの選挙予測モデル

ネイトシルバーは、過去の米国の選挙結果を予測することにかなり成功しており、これは彼の著書「シグナルとノイズ」に記載されています。本には、使用されたモデルのいくつかの説明が含まれており、彼のブログ投稿では、2014年の中間選挙で使用されたモデルについて説明しています。これらの説明は、より一般的な人々を対象としたものであり、統計モデルが実際にどのようなものであるか（概念的なものよりも）はそれほど具体的ではありません。私の質問は次のとおりです。彼が使用したモデルのタイプについて、統計的に指向された説明を誰かが知っていますか？科学論文、ブログ投稿、プレゼンテーション、複製などです。彼の本は非常に興味深く、ここで私たちが話しているモデルのタイプと推定方法について学びたいと思います。編集：誰かが終了に投票したので、私が求めていることを明確にしましょう。誰かが、概念的な説明ではなく統計的な説明を含む、ネイトシルバーが使用する予測モデルの説明への参照を提供できますか？これは、Silver自身が公開した論文である必要はありませんが、他のユーザーによるブログ投稿（または論文）でもかまいません。

8 references prediction

1

「後部正中面」のプロット

この質問で部分的に説明したモデルをスタックオーバーフローで再現する一環として、事後分布のプロットを取得します。（空間）モデルは、一部の物件の販売価格を、物件が高価（1）であるか安価（0）であるかに応じて、ベルヌーイ分布として記述します。方程式では： yi∼Bernoulli(pi)yi∼Bernoulli(pi)y_{i} \sim \text{Bernoulli}(p_{i}) pi∼logit−1(b0+b1LivingArea/1000+b2Age+w(s))pi∼logit−1(b0+b1LivingArea/1000+b2Age+w(s))p_{i} \sim \text{logit}^{-1}(b_{0} + b_{1}\text{LivingArea}/1000 + b_{2}\text{Age} + w({\bf{s}})) w(s)∼MVN(0,Σ)w(s)∼MVN(0,Σ)w({\bf{s}}) \sim \text{MVN}({\bf{0}}, {\bf{\Sigma}}) どこ yiyiy_{i} バイナリの結果1または0です。 pipip_{i} 安かったり高かったりする確率です w(s)w(s)w({\bf{s}}) 空間確率変数です。 ss\bf{s} その位置を表します。それぞれのこれすべて i={1,...,70}i={1,...,70}i = \{1, ..., 70\} データセットには70のプロパティがあるためです。 ΣΣ\bf{\Sigma}データポイントの地理的位置に基づく共分散行列です。このモデルに興味がある場合は、ここにデータセットがあります。取得したいプロットは、次の等高線プロットです。この図は、「潜伏プロセスの後部正中面のイメージプロットとして説明されています。 w(s)w(s)w({\bf{s}})、バイナリ空間モデル」。本はこれも言います：図5.8は、潜在の後方平均表面の等高線を重ねた画像プロットを示しています w(s)w(s)w({\bf{s}}) 処理する。ただし、データセットには70組のポイントしかありません。等高線図を作成するには、推定する必要があると思いますw(s)w(s)w({\bf{s}})70 * 70ポイントで。だから、私の質問です：この後部正中面をどのように生成しますか？これまでのところ、（PyMCを使用して）関連するすべてのパラメーターの事後分布のサンプルがあり、予測できることがわかっています。y∗y∗y^*事後予測分布を使用して新しいポイントで。しかし、私は値を予測する方法がわかりませんw(s)w(s)w({\bf{s}}) 新しい時点で s∗s∗s^*。多分私は間違っていて、プロットは予測ではなく補間によって構築されました。更新：まず、これはの事後分布の中央値です w(s)w(s)w({\bf{s}})プロパティがある各場所で。これは、MCMCトレースに基づいていますwww。そして、これは動径基底関数を使用した補間（等高線図付き）です。（コードに興味がある場合はお知らせください）ご覧のとおり、プロットには大きな違いがあります。いくつかの質問： …

8 prediction spatial posterior hierarchical-bayesian pymc

4

回帰モデルの選択

2つの変数を使用して単純な線形最小二乗回帰を行うための適切なモデルを、どのようにして客観的に（「アルゴリズム的に」読み取る）選択できますか？たとえば、データが2次傾向を示しているように見え、データに非常によく適合する放物線が生成されたとします。これを回帰にすることをどのように正当化しますか？または、より良いモデルが存在する可能性を排除するにはどうすればよいですか？私が本当に心配しているのはこれです。データセット（点の補間）に完全に適合するまで、多項式の項を追加し続けるだけで、エラーはまったく発生しません。しかし、「モデル」が実際に適切であると考える理由がないため、これは予測または外挿に関しては役に立たないでしょう。では、正確さと直感的な魅力のニーズのバランスをどのように取るのでしょうか？（また、これが以前に尋ねられたことがある場合は、私に警告してください。そうであったと思いますが、何も見つかりませんでした。）

8 regression forecasting model-selection prediction

3

Rの「bnlearn」パッケージを使用した連続変数の予測

Rでbnlearnパッケージを使用して、ベイジアンネットワークの構造とそのパラメーターを学習します。私がやりたいことは、証拠として他のノードの値を与えられたノードの値を「予測」することです（当然、予測している値のノードを除いて）。連続変数があります。 library(bnlearn) # Load the package in R data(gaussian.test) training.set = gaussian.test[1:4000, ] # This is training set to learn the parameters test.set = gaussian.test[4001:4010, ] # This is test set to give as evidence res = hc(training.set) # learn BN structure on training set data fitted = bn.fit(res, …

8 r machine-learning prediction bayesian-network

1

時系列回帰の非表示モデルとステートレスモデル

これは非常に一般的な質問です。前の観測に基づいて次の観測を予測するモデルを構築したいとします（は実験的に最適化するためのパラメーターにすることができます）。したがって、基本的に、次の観測を予測するための入力フィーチャのスライディングウィンドウがあります。NNNNNN 隠れマルコフモデルのアプローチ、つまりBaum-Welchを使用してモデルを推定し、Viterbiが最後の観測に基づいて現在の状態を予測し、次に現在の状態に基づいて最も可能性の高い次の状態を予測し、次に次の状態を予測します。最も可能性の高い次の状態とHMMパラメーター（または次の観測の予測分布を見つけるなどのバリアント）を使用した観測。NNN または、SVM、線形回帰、スプライン、回帰ツリー、最近傍などのステートレスモデル（入力として以前の観測を取得できる）を使用して、はるかに単純なアプローチを使用することもできます。このようなモデルは、いくつかの予測誤差の最小化に基づいていますしたがって、概念的には、隠れた状態ベースのモデルよりもはるかに単純です。NNN 誰かがそのようなモデリングの選択に対処した彼女/彼の経験を共有できますか？HMMを支持して何を話し、回帰アプローチを支持して何を話しますか？直感的には、過剰適合を避けるために可能な限り単純なモデルを採用する必要があります。これは、ステートレスなアプローチを支持して話します...また、両方のアプローチがトレーニングのために同じ入力データを取得することを考慮する必要があります（これは、非表示の状態モデルのモデリングに追加のドメイン知識を組み込まない場合、たとえば特定の状態と遷移確率を修正します。非表示状態モデルのパフォーマンスが向上する理由はありません）。最後に、もちろん両方のアプローチを試して、検証セットで何がより効果的かを確認できますが、実際の経験に基づくいくつかのヒューリスティックも役立つかもしれません... 注：私にとっては、特定のイベントのみを予測することが重要です。私は、「平均的/頻繁な」イベントを予測するが、興味深いイベントはあまり予測しないモデルよりも、「興味深い/まれな」イベントをほとんど予測しないモデルを好みます。おそらくこれはモデリングの選択に影響を与えます。ありがとう。

8 regression time-series modeling prediction hidden-markov-model

3

ランダムフォレストの予測式を出力するためのアイデア

私が尋ねようとしていた質問に答えた次の投稿を読みました：ランダムフォレストモデルを使用してセンサーデータから予測を行う出力予測の決定木これまでに行ったことは次のとおりです。私はロジスティック回帰をランダムフォレストと比較し、RFがロジスティックを上回りました。今、私が一緒に働く医学研究者は私のRF結果を医学診断ツールに変えたいと思っています。例えば： 25〜35歳のアジア人男性で、ビタミンDがxx未満で、血圧がxxを超えている場合、76％の確率で病気xxxを発症します。ただし、RFは単純な数式に適していません（上記のリンクを参照）。だから私の質問です：RFを使用して診断ツールを開発するためにあなたは皆どんなアイデアを持っていますか（数百本の木をエクスポートする必要はありません）。ここに私のアイデアのいくつかがあります：変数の選択にRFを使用してから、ロジスティックを使用して（考えられるすべての相互作用を使用して）、診断方程式を作成します。どういうわけか、RFフォレストを1つの「メガツリー」に集約します。これにより、ツリー全体でノード分割が平均化されます。＃2や＃1と同様に、RFを使用して変数を選択し（合計でm個の変数など）、何百もの分類ツリーを構築します。これらすべてですべてのm変数を使用し、最適な単一ツリーを選択します。他のアイデアは？また、＃1を行うのは簡単ですが、＃2と＃3を実装する方法に関するアイデアはありますか？

8 random-forest prediction

2

分類と回帰の予測に関するサンプルサイズ

仮説検定に関して、サンプルサイズの推定はパワーを介して行われ、同じサイズを増やすと推定される効果の精度が上がることは直感的です。しかし、分類と回帰の両方の予測についてはどうでしょうか？予測問題のどの側面が、一般化誤差または回帰のRMSEの推定以外のサンプルサイズの影響を受けます。要するに、仮説検定の設定で力に寄与するプロパティは、ペナルティ付き回帰/データマイニング/アルゴリズムモデリングを通じて予測を成功させるプロパティとは異なります。サンプルサイズはこれらのテクニックの成功にどのように影響しますか？この考えを説明する1つの論文がこれです。だれでもコメントの参照を提供できますか？ありがとう。

8 classification sample-size prediction

1

lmeオブジェクトから予測を取得する際のエラー

lmeオブジェクトから観測の予測を取得しようとしています。これは非常に簡単なはずです。しかし、さまざまな試行でさまざまなタイプのエラーが発生するため、何かが足りないようです。私のモデルは次のとおりです： model <- lme(log(child_mortality) ~ as.factor(cluster)*time + my.new.time.one.transition.low.and.middle + ttd + maternal_educ+ log(IHME_id_gdppc) + hiv_prev-1, merged0,na.action=na.omit,method="ML",weights=varPower(form=~time), random= ~ time| country.x, correlation=corAR1(form = ~ time), control=lmeControl(msMaxIter = 200, msVerbose = TRUE)) それはうまく動作し、データによく適合し、結果は理にかなっています。予測を得るために、私は以下を試しました： test.pred <- data.frame(time=c(10,10,10,10),country.x=c("Poland","Brazil", "Argentina","France"), my.new.time.one.transition.low.and.middle=c(1,1,1,0), ttd=c(0,0,0,0),maternal_educ=c(10,10,10,10), IHME_id_gdppc=c(log(5000),log(8000),log(8000),log(15000)), hiv_prev=c(.005,.005,.005,.005), cluster=c("One Transition, Middle Income","One Transition, Middle Income","One Transition, Middle Income","Democracy, High …

8 r mixed-model multilevel-analysis prediction lme4-nlme

2

予測を組み合わせて全体的な予測品質を向上させることは可能ですか？

これはバイナリ分類の問題です。最小化されているメトリックは、対数損失（またはクロスエントロピー）です。私の情報のためだけに、私は正確さの数値も持っています。非常にバランスの取れた大規模なデータセットです。非常に単純な予測手法では、約50％の精度と0.693の対数損失があります。私がかき集めることができた最高のものは、52.5％の精度と0.6915のログ損失です。ログの損失を最小限に抑えようとしているため、常に一連の確率（predict_probasklearnおよびkerasの関数）が得られます。それがすべての背景ですが、今は問題です。 2つの異なる手法を使用して、同等の精度とログ損失メトリックを持つ2つの異なる予測セットを作成できるとしましょう。たとえば、入力フィーチャの2つの異なるグループを使用して、2つのセットの予測を生成できます。どちらも約52％正確で、<0.692のログ損失です。重要なのは、どちらの予測セットも予測力があることを示しているということです。別の例は、ロジスティック回帰を使用して1つの予測セットを生成し、ニューラルネットを使用してもう1つの予測セットを生成することです。たとえば、各セットの最初の10は次のとおりです。 p1 = [0.49121362 0.52067905 0.50230295 0.49511673 0.52009695 0.49394751 0.48676686 0.50084939 0.48693237 0.49564188 ...] p2 = [0.4833959 0.49700296 0.50484381 0.49122147 0.52754993 0.51766402 0.48326918 0.50432501 0.48721228 0.48949306 ...] 全体的な予測力を高めるために、2つの予測セットを1つに組み合わせる方法が必要だと考えています。ある？私はいくつかのことを試し始めました。たとえば、予測の絶対値から0.5（abs( p - 0.5 )）を引いたものを信号と見なし、その間p1でp2信号が大きい場合は、その値を使用します。これは私が望んでいたことをわずかに達成しましたが、ほんのわずかなマージンでした。そして別の例では、それはまったく役に立たなかったようです。興味深いことに、予測力を破壊するようには見えませんでした。

7 machine-learning prediction boosting

タグ付けされた質問 「prediction」

タグ付けされた質問「prediction」