「サンプル内」と「サンプル外」の予測の違いは何ですか?


16

「サンプル内」予測と「サンプル外」予測の違いは正確にはわかりませんか?サンプル内予測では、利用可能なデータのサブセットを使用して、推定期間外の値を予測します。代わりに、サンプルの予測では利用可能なすべてのデータを使用します これらは正しいですか?

非常に具体的には、次の定義は正しいですか?

サンプル内予測では、利用可能なデータのサブセットを使用して、推定期間外の値を予測し、対応する既知の結果または実際の結果と比較します。これは、既知の値を予測するモデルの能力を評価するために行われます。たとえば、1980年から2015年までのサンプル内予測では、1980年から2012年までのデータを使用してモデルを推定できます。このモデルを使用して、予測者は2013-2015年の値を予測し、予測値を実際の既知の値と比較します。代わりに、サンプル外予測では、サンプル内の使用可能なすべてのデータを使用てモデルを推定します。前の例では、推定は1980〜2015年に実行され、予測は2016年に開始されます。


コンテキストを提供してもらえますか?自分の質問に答えても問題ないように見えますが、用語は主題に固有のものである場合があります。
IWS

これらの定義はどこから入手しましたか?
GUNG -復活モニカ

インサンプルとは、モデルの作成時に知っていて、そのモデルの構築に使用するデータです。アウトオブサンプルとは、目に見えないデータであり、予測/予測データのみを生成します。ほとんどの状況では、モデルはすべてのパラメーターがキャリブレーションされたインサンプルよりもアウトオブサンプルでパフォーマンスが低下します。
リック

@IWS私は特定の質問を追加しました:)
Engin YILMAZ

@Richard新しいspesific質問...お読みください
ENGINユルマズ

回答:


30

「サンプル」とは、モデルの適合に使用しているデータサンプルを意味します。

最初-サンプルがあり
ます2-サンプルにモデルを適合させます3-
予測にモデルを使用できます

データサンプルの一部であった観測値を予測する場合は、サンプル内予測です。

データサンプルの一部ではない観測値を予測している場合は、サンプル外の予測です。

したがって、あなたが自問しなければならない質問は、特定の観測がモデルのフィッティングに使用されたかどうかです。モデルフィッティングに使用された場合、観測の予測はサンプル内です。それ以外の場合は、サンプル外です。

1990-2013年のデータを使用してモデルに適合し、2011-2013年の予測を行う場合、これはサンプル内予測です。しかし、モデルの近似に1990-2010のみを使用し、2011-2013を予測する場合、サンプル外の予測を行います。


1990年から2013年までのサンプルがあり、そのサンプルにモデルを適合させた後、2011-2013を予測しますが、これはサンプル内ですか?または、1990年から2013年までのサンプルがあり、そのサンプルに1990年から2010年のモデルを適合させます。2011年から2013年を予測していますが、これはサンプル外ですか。
エンギンイルマズ

はい、1990-2013年のデータを使用してモデルに適合させ、2011-2013年の予測を行う場合、これはサンプル内予測です。しかし、モデルの近似に1990-2010のみを使用し、2011-2013を予測する場合、サンプル外の予測を行います。
キングソロモンの馬

3

サンプルで、10個のデータポイントのシーケンスがあるとします。このデータは2つの部分に分割できます。たとえば、モデルパラメーターを推定するための最初の7つのデータポイントと、モデルのパフォーマンスをテストするための次の3つのデータポイントです。適合モデルを使用すると、最初の7つのデータポイントに対して行われた予測はサンプル内予測と呼ばれ、最後の3つのデータポイントに対して行われた予測はサンプル予測から呼び出されます。これは、データをトレーニングセットと検証セットに分割するという考え方と同じです。


1

サンプル内予測とは、観測データを使用して開発されたモデルの予測機能を正式に評価し、データの再現におけるアルゴリズムの効果を確認するプロセスです。これは、機械学習アルゴリズムのトレーニングセットに似ており、サンプル外はテストセットに似ています。


サンプル内予測の簡潔な説明を提供します-サンプル外でも同じことを提供できますか(つまり、テストセットとの比較だけでなく、簡単な説明)。
ReneBt


-1

時系列予測では、「Insample」はトレーニングデータを意味し、「Outsample」はテストデータを意味します

時系列では、最初に「インサンプル」(つまり、列車)データの結果を予測できます。後で「アウトサンプル」(つまりテスト)データの結果を予測できます。

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)

それは質問に答えないので、あなたの答えは失望していると思います-特に「非常に具体的には次の定義は正しいですか?」服を着ていません。
マーティンモドラーク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.