回帰モデルを使用して予測を行う:いつ停止するか?


9

予測を行うために、実験測定から単純な線形回帰モデルを計算しました。利用可能なデータから離れすぎているポイントの予測は計算しないでください。しかし、どこまで外挿できるかを知るのに役立つガイダンスは見つかりませんでした。たとえば、ディスクサイズが50GBの場合の読み取り速度を計算すると、結果は現実に近いものになると思います。100GB、500GBのディスクサイズはどうですか?私の予測が現実に近いかどうかはどうすればわかりますか?

私の実験の詳細は次のとおりです。

異なるディスクサイズを使用してソフトウェアの読み取り速度を測定しています。これまでのところ、実験間で5GBのディスクサイズを増やして(合計6メジャー)、5GBから30GBで測定しました。

私の意見では、結果は直線的で、標準誤差は小さいと思います。


2
有用な回答を得るには、2番目の文を大幅に拡張して明確にする必要があると思います。
rolando2

rolando2は正しいです。「予測が多すぎる」とはどういう意味ですか?
デビッドロビンソン

私が読んだ文書で使用されている正確な用語が見つかりません。アイデアは「私の元の対策からは遠すぎる」です。そこで、30 GBのディスクで読み取り速度を測定しました。100GBディスクの読み取り速度を予測すると、これは「遠すぎる」でしょうか?
Flanfl 2012

ガンによる答えは、関係する問題を概説するのに十分です。特定のケースで役立つかもしれないもう1つのことは、ソフトウェアの読み取りに関連する物理的なプロセスを検討することです。どのような操作を行う必要がありますか?ソフトウェアは読み取りプロセスの一環としてディスクを整理またはソートする必要がありますか?これらの質問は、線形性の仮定にいくつかの基礎を提供するのに役立ちます
確率論的

回答:


19

あなたが探している用語は「外挿」です。問題は、データの量と、ディスクサイズのエンドポイント間にある中間レベルの数(つまり、5から30の間)に関係なく、実際の基になる関数にある程度の曲率がある可能性があることです。 、あなたが単に検出する力を持っていないこと。その結果、端点から離れて外挿すると、小さな曲率であったものが拡大され、実際の関数がフィットラインから遠ざかるようになります。別の可能性としては、真の関数が検査範囲内で完全にまっすぐであるにもかかわらず、調査の終点から少し離れたところに変化点がある可能性があります。これらの種類のものを除外することは不可能です。質問は、それらが本当であることが判明した場合、それらはどのくらいの確率であり、あなたの予測はどのくらい不正確でしょうか?これらの質問に対する分析的な回答を提供する方法がわかりません。私の直感は、調査中の範囲が[5、30]だった場合、500は非常に長い道のりであるということですが、私の直感があなたの直感よりも価値があると考える本当の理由はありません。予測間隔を計算するための標準的な数式は、離れるにつれて拡大する間隔を示しますバツ¯、その間隔がどのように見えるかを確認すると役立つ場合があります。それにもかかわらず、線は本当に完全に直線であり、予測に使用する値までずっとそうであるという理論上の仮定を行っていることを覚えておく必要があります。その予測の正当性は、データと適合性、およびその仮定の両方に依存します。 バツ


2
完全に同意します(+1)。この質問への答えは厳密に統計的ではありません。ソフトウェアおよびコンピューターエンジニアと話すことはここで重要です!
Dominic Comtois

回答をありがとう、それは本当に役に立ちます。私は独学で学んでいるので、基本的な知識がかなり不足しています(語彙を知っているなど)。
Flanfl 2012

信頼区間の幅の逆数は、予測の「強さ」のある種の指標と見なすことができませんか?もちろん、あなたが...それを利用するために、いくつかの任意の値を選択しなければならないと思い
naught101

2
@ naught101、回帰直線が完全にまっすぐであると想定しても構わない場合、予測区間の幅は予測の強さの尺度と見なすことができます(間隔が広いほど予測が弱いことを示します)が、それでもまだその仮定に応じて。
gung-モニカの復活

7

@gungの優れた答えにいくつかのポイントを追加しましょう:

  • 分野によっては、関連する規範がある場合があります(DIN / ENまたはISOなど)。これはおそらくハードディスクの読み取り速度の予測に関する問題ではありませんが、たとえば分析化学では、ルールは外挿ではありません。限目。500 GBまで移動したい場合は、500 GBまで含めていくつかの測定を行ってください。

  • 線形モデルを設定する通常の方法には、2つの重要な仮定があります。

    • 明らかに、その関数は線形です。実際には、通常、線形性が無限大に及ぶというのはあまり適切な仮定ではありません。たとえば、ハードディスクのボリュームよりも多くの量を読み取った場合でも、直線性が見つかると期待できますか?

    • バツ

  • これらの仮定が満たされている場合でも、そのような外挿の予測間隔が実際にどれほど大きいかを検討してください。

    lm校正範囲 lm外挿


    バツt


1
+1、特に同等分散性の仮定は、ここでの議論に素晴らしい追加です。(「ドット」により、小型・ノートでは、あなたが意味するか期間を。前の文に記載されたルールの終局を強調する方法として?)
GUNG -復活モニカ

@gung:もしピリオドが単語なら、それが私が意味することです:-)ありがとう。
cbeleitesはSXに不満2014

2
ピリオドを「ドット」と呼ぶのは、実際にはコンピュータ用語で、特にURLでのみ使用されます(たとえば、「stats dot stackexchange dot com」)。これはかなり新しい英語の使用法であり、おそらく約20年前のものです。
-モニカの

1
追加のポイントをありがとう。少し前に仕事を終えましたが、この質問に対する両方の答えが他の学生の役に立つことを願っています!
Flanfl 2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.