タグ付けされた質問 「forecastability」

3
機械学習の問題が絶望的であることを知る方法は?
標準的な機械学習シナリオを想像してください: 大規模な多変量データセットに直面しており、それについてかなり曖昧な理解を持っています。あなたがする必要があるのは、あなたが持っているものに基づいていくつかの変数について予測することです。いつものように、データを消去し、記述統計を調べ、いくつかのモデルを実行し、それらを相互検証しますが、何度か試行した後、前後に行って複数のモデルを試しても何も機能しないようで、結果は悲惨です。このような問題に数時間、数日、または数週間費やすことができます... 問題は、いつ停止するかです。データが実際に絶望的であり、すべての派手なモデルがすべてのケースまたは他の些細な解決策の平均結果を予測するよりも良いことをしないことをどのように知っていますか? もちろん、これは予測可能性の問題ですが、私が知る限り、多変量データの予測可能性を評価するのは困難です。それとも私は間違っていますか? 免責事項:この質問はこの質問に触発され ました。いつモデルを探すのをやめなければなりませんか?それはあまり注目されませんでした。このような質問に対する詳細な回答を参考にしていただければ幸いです。

4
時系列の予測可能性の評価
Jan'05からDec'11に及ぶ月間時系列が2万を少し超えると想定します。これらはそれぞれ、異なる製品のグローバル販売データを表しています。それぞれの予測を計算するのではなく、「実際に重要」な少数の製品のみに焦点を当てたい場合はどうなりますか? 私はそれらの製品を総年間収益でランク付けし、古典的なパレートを使用してリストを切り詰めることができました。それでも、最終的な収益にはあまり貢献していませんが、一部の製品は予測が非常に簡単なので、除外しないと悪い判断になると思われます。過去10年間に毎月50ドル相当の売り上げを上げた製品は、あまり聞こえないかもしれませんが、将来の売り上げを予測するのにほとんど労力を要しません。 したがって、製品を4つのカテゴリに分類するとします。高収益/予測が容易-低収益/予測が容易-高収益/予測が困難-低収益/予測が困難。 第4グループに属する時系列のみを残しておくのが妥当だと思います。しかし、「予測可能性」をどのように正確に評価できますか? 変動係数は良い出発点のようです(これについて少し前にいくつかの論文を読んだことも覚えています)。しかし、私の時系列が季節性/レベルシフト/カレンダー効果/強い傾向を示している場合はどうなりますか? 「生の」データではなく、ランダムなコンポーネントの変動性のみに基づいて評価を行うべきだと想像します。それとも何か不足していますか? 誰かが以前に同様の問題に遭遇しましたか?あなたたちはどうやってそれについて行きますか? いつものように、どんな助けでも大歓迎です!

2
時系列の予測可能性を判断する方法は?
予測者が直面している重要な問題の1つは、特定の系列 を予測できるかどうかです。 Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー(ApEn)を使用して 、所定の時系列を予測できる相対的な指標を決定しています。 記事は言う、 「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します(規則性)。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します(不規則性)。したがって、値が大きいほど、不規則性が高くなります。 、ランダム性、システムの複雑さ。」 そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。 呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。 シリーズ1:有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。 系列2:太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。 シリーズ3:乱数このシリーズを予測する方法はありません。 したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。 以下は、3つのシリーズすべてのApEnを計算するRスニペットです。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。 > series3 <- approx_entropy(rnorm(1:100)) > series3 [1] …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.