タグ付けされた質問 「prediction-interval」

予測間隔(また予測間隔)は、事前に指定された確率で確率変数の将来(またはその他の場合は不明ですが、*観測可能*)な値をカバーする間隔です。

1
ポアソン、精度、予測間隔の予測
Poissonグループ1-26 months of dataに応じて、グループ分けされたのデータを予測しようとしています。プールされたデータの65% has a value of 0や25% a value of 1。トレンドや季節性を見つけることができなかったので、いくつかの異なるステーショナリーモデルをテストし始めました。Moving average (3)、Moving Average (6)、Simple Exponential Smoothing、NaïveとSimple Mean。 私は1-6カ月先に予想して使用する必要があるMAD、MSEとRMSEモデルの精度をテストします。最も正確なのと、平均シンプルであるように見えますRMSE of 1とMAD of 0,638。これは本当に高いと思いますが、どうすればよいのかわかりません。 私が考えていなかった予測方法がありますか?私は何かを見落としているか? 私は予測区間については見つけることができた唯一のものだったF+tsとF-tsしてF、予想通りtとt分布としてalfa (n-2)およびs標準偏差など。本当に信頼できるソースだとは思わないが、他に何も見つからなかったため、これらの予測間隔の設定方法がわからない。この方法は正しいですか? 使用するRがありません。自分でやる必要があります。


2
予測区間には平均が含まれている必要がありますか?
私が思いついた概念的な問題で大きな問題を抱えています。 ある会社が非常に歪んだ分布をしているとしましょう。指数関数または対数正規関数に似たもので、さらに極端なもの。ここで、分布が歪んでいると仮定して、分布の平均が分布の99%パーセンタイルよりも高くなるようにします。(別名1-2の極端に高い値により、他の分布と比較して平均が非常に高くなりました)。 定義により、この分布が将来の値(別名分布からのランダムサンプル)を予測するために使用された場合、平均が95%予測間隔に含まれないのは本当ですか? 私の脳では、95%の予測間隔は、すべての将来の値の95%がその間に入る範囲です。どの分布でも、これは下限の.025パーセンタイル、および上限の.975パーセンタイルに正確に等しい必要があります...平均が.975パーセンタイルよりも高い場合、平均は'95%内にありません。予測間隔」。 私はこれを間違って考えていますか?予測を次のように報告するのは奇妙に思えます 平均予測値:6,000,0000 95%予測間隔:[400,5000]。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 



3
コーシー変数の頻度分布予測
私はこれを文献で見つけることができませんでしたが、それはおそらく私が間違った場所を探していることを意味します。1次元およびn次元のコーシー変量に対して、存在する場合を想定して、フリークエンティスト予測分布を見つけようとしています。 n次元バージョンの問題は、共変量行列のようなものは何もないことです。代わりに、エラーを超循環にする1つのスケールパラメーターしかありません。これが極めて重要な価値の存在に干渉しているのを見ることができました。 編集 私はどちらかを予測しています xi+1xi+1x_{i+1} 一連の観察から x1…xix1…xix_1\dots{x_i} 中心のコーシー分布から描画 μμ\mu とスケール σ,σ,\sigma, または予測する yi+1yi+1y_{i+1} ある方程式から y=mx+b,y=mx+b,y=mx+b, どこ xxx上記のコーシー分布から抽出されます。それはベクトルまたは多次元である可能性がありますが、私はベイジアン対フリークエンティスト予測の相対的な特性を決定しようとしています。私のデータは、どのセットに応じて切り捨てられたコーシーまたはコーシーのいずれかから取得されます。 予測間隔は、間隔を100%に設定するだけで機能します。

1
どの二項予測区間がテール確率に適しているか、つまり
私は以下の性質を持つ問題に取り組んでいます。 利用可能なデータは多数ありますオーダーバツバツx10610610^6 CDFは、非負の実数をサポートしています。FバツFXF_X ません。FバツFXF_X データはiidであると想定できます。 から抽出された将来のサンプルがサンプルの最小値下回る確率を推定しようとしています。要点は、この確率を特定の値未満に保つことですFバツFXF_Xバツ(1 )x(1)x_{(1)}α 。α。\alpha. 信頼区間に関心がある場合、アプローチは値を選択し(は負でないサポートを持っているため)、場合、CLT、カゼッラ、ジェフリーズ、アグレスティ、またはその他の多くの方法を適用するなど、いくつかのオプションのいずれかを使用して、左裾の 2項信頼区間を導出します。k>0k>0k>0xバツxFX^(k)=p^=#(バツ私≤ K )んFバツ^(k)=p^=#(バツ私≤k)ん\hat{F_X}(k)=\hat{p}=\frac{\#(x_i\le k)}{n} これは、特にため、大きなと小さなは脆弱に見えます。さらに、私の場合、将来の観測の予測区間を推定しています。これらの状況でうまく機能する二項予測間隔はありますか?んんnkkkk =バツ(1 )k=バツ(1)k=x_{(1)} ベイジアンアプローチは直接推定し、そこから機能します。これは、この問題の狭い範囲に厳密に必要なものよりも難しいようです。FFF 「いや、人生は不公平であり、この問題の良い解決策はありません」という答えは、それに添えるいい引用がある場合にも役立ちます。

2
障害が発生する前にその兆候を特定するための予測保守モデル
状況 センサーデータを使用して、障害が発生する前にマシンの障害を予測する問題に取り組んでいます。調査する方法についてアドバイスが必要です。 具体的には、実際に障害が発生する前に、差し迫った障害の兆候を特定したいと考えています。理想的には、これにより、障害が発生する前に何が起こっても修正できる十分なリードタイムが得られます。 問題 私がいる概念的なロードブロックは、さまざまな分類モデル(ロジスティック回帰、決定木、最近傍など)をデータに適合させて、その時点で特定のパラメーターが与えられた場合の失敗の確率を特定できることを知っています。ただし、実際に何かを行うのに十分な時間をかけて、次の障害の兆候を特定する方法を理解することはできません。 可能なアプローチ 私はサバイバル分析に精通していますが、複数のマシンからのデータがないため、修理後にマシンが100%に戻ったとは言えないので、必ずしも適切であるとは思いません。 また、障害が発生した時間を取り、それを1時間戻し、その点をどれだけ正確に予測できるかを考えました。可能な場合は、ターゲットをさらに1時間戻し、自信を持って予測できるリードタイムを確認します。しかし、これが適切かどうかはわかりません。 利用可能なデータ 私が持っているデータは、1台のマシンから1年間にわたって記録されています。2分ごとに記録される約60個のセンサーがあります。これらのセンサーは、マシンを構成するさまざまなコンポーネントの温度(サーモスタットの設定と実際の温度を含む)、マシンの動作速度、マシン全体の蒸気圧、ファン速度、マシンが動作しているかどうかなどの変数を測定します、など センサーの読み取り値に加えて、マシンが実行されていない理由(シフトの変更、予防保守、故障など)も含まれるようにデータセットを充実させました。この記事の最後に、データがどのように表示されるかについての例をまとめました。データセット全体でキャプチャされた多様性の一部をキャプチャするように例を変更しました。実際には、マシンが実行を停止すると、理由にもよりますが、2分から2日の間停止します。また、変数は以下の例のように必ずしもそれほど急速に変化するわけではありませんが、いくつかの種類を提供したいと思いました。 +-----------------+----------+-------------+------------+------------+-------+-------+-----+--------------------------+------------+ | Datetime | CircFan | CircFanAct | EntrySpeed | ExhaustFan | Speed | Temp1 | Run | Reason | TimeBtwRun | +-----------------+----------+-------------+------------+------------+-------+-------+-----+--------------------------+------------+ | 2009-10-19 0:00 | 100 | 600 | 461 | 40 | 45 | 1126 | …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.