ブートストラップを解釈するには?


7

私は統計に関しては初心者なので、私と私の質問を判断しないでください;)

私はSPSSで線形回帰分析を行っており、私のデータは正規分布されておらず、等分散性も示していないため、ブートストラップを使用することにしました。

今、私はそれが出力の解釈になると本当に混乱しています。SPSSは、「通常の」モデルの要約と係数、およびブートストラップの要約とブートストラップ係数を提供します。私は今、ブートストラップ部分だけを解釈しますか?または、たとえばF値はまだ関連性がありますか?つまり、Fが有意でない場合、有意でもブートストラップ間隔を解釈できませんか?

回答:


4

ブートストラップの背後にある直感的なアイデアは次のとおりです。元のデータセットが全母集団からランダムに抽出された場合、次にサンプルからサブサンプルを取得し(置換あり)、それも全母集団からのドローを表します。その後、ブートストラップされたすべてのデータセットでモデルを推定できます。これにより、多数の推定値が得られるため、たとえば、推定値の標準偏差を確認できます。これにより、推定値の標準誤差がよく推測されることがよくあります。実際、実際の母集団から多数のデータセットを取得する場合、推定値の標準誤差は、まさにこれと考えることができます。

たとえば、データセットに1つの外れ値があるとします。次に、ブートストラップされたデータセットの多くに観測値が含まれていないため、これらのデータセットでは、推定された係数の変化が大きくなります。

同様に、各ブートストラップデータセットのF統計を確認できます。たとえば、モデルが拒否された回数を確認できます。しかし、私はSPSSを十分に理解していないため、SPSSがF統計として何を報告するかを知ることはできません。それは、平均F統計ですか?


4

@Superpronkerが述べたように、それは実際にはSPSSがブートストラップで何をしているかに依存します。コードと出力を含めると、非常に役立ちます。また、ブートストラップは膨大な量の文献を持つ主題です。これは、Wileyから出版された私の2007年版Bootstrap Methodsの参考文献を見るだけでわかります。ですから、少なくともブートストラップに関する基本的なチュートリアルも必要だと思います。ウィキペディアに行くことは、この種のことを助けることがあります。

回帰では、異分散性や非正規性などの問題に対処するさまざまな方法があります。参照しているF検定がOLS解から線形回帰への正規性と等分散性が無視されており、有意でないとは、F検定が回帰係数のいずれかが0と異なることを通知できないことを意味します。それを無視して、別のアプローチを適用する必要があるということです。

ブートストラップは、問題に対処するための1つのアプローチです。回帰では、2つの一般的なブートストラップアプローチがあります。1つはブートストラップ残差と呼ばれ、もう1つはブートストラップベクトルと呼ばれます。どのSPSSが使用しているかを確認する必要があります。ブートストラップベクトルは必要な仮定が少ないという意味でより堅牢であるとするいくつかの文献があります。ベクトルは、の観測値のセットです。ここで、は従属変数で、はモデル内の予測子変数です。問題の説明から、がかかはわかりません。それぞれについて(Y,X1,X2,,Xk)YXjkk1>1j関連付けられているが回帰パラメータ推定されています。Xjbj

ブートストラップ残差法は、かかる場合には、残差をの残差のセットから交換した試料を、あなたのサンプルサイズであり、それ。コンピュータプログラムでは、これはモンテカルロ法によって行われます。nn

モデルは で、はエラー項です。最初に、を番目の残差とすることで、n個の残差を取得します。ここで、は回帰パラメーター推定値を示します。我々は、表記使用と表現するために従属変数の番目の観測値との番目の観測値番目の予測変数それぞれ。Y=b1X1+b2X2++bkXk+eeyib^1x1ib^2x2ib^kxkiib^jbjyixjiiij

これは複雑になるので、残差ブートストラップに関するリファレンスを参照することをお勧めします。最終結果は、各回帰パラメーターのブートストラップ分布であり、いくつかの可能なブートストラップ信頼区間の1つを使用できます。 最も可能性が高いのは、エフロンの百分位法です。信頼区間に0が含まれていない場合、回帰パラメーターは有意であると見なされます。


2

簡単にまとめると、SPSS Statisticsの一般的なブートストラップはヘルプに記載されています。

単純な方法は、元のデータセットからの置換の場合リサンプリングです。成層方法は、地層の変数のクロス分類によって定義された地層内、元のデータセットからの置換でリサンプリングする場合です。

一部の手順には他のオプションがあります。

オンラインで入手できるアルゴリズムマニュアルには、ジャックナイフ、ケース、層別、残差、ワイルドリサンプリングの詳細が記載されています。

ユーザーの元の質問については、「私のデータは正規分布されていないか、等分散性を示していない」という質問があり、これは回帰における正規性の仮定の意味についての誤解を反映している可能性があります。これは誤差項に関するものであり、方程式の変数ではありません。

そして、Michaelへの質問:ブートストラップに関するあなたの本の価格は、AmazonのKindleでは107ドルから237ドルです。どうして?私はこれらの1つを読みたいですが、コストは驚異的です。残念ながら、購入に代わる優れたライブラリはありません。


もし本を買いたいのならそこに行ってはいけません。それは高すぎる。ワイリーのサイトをチェックして、彼らが何を売っているのかを確認してください。アマゾンに関しては、彼らはしばしば売り手の仲介役を務めます。本は未使用の場合と未使用の場合があり、価格は販売者が設定します。また、amazonのような一部のサイトでは、書籍のオークションを行っています。これらの売り手は、本の真の価値を知らない人々を利用しようとしています。一方で、掘り出し物である新品または中古の本を見つけることもあるでしょう。あなたが本当にそれを購入したいなら、ネットを検索してください。
マイケルR.チェニック2016

SPSSについて説明していただきありがとうございます。これはOPに役立つと確信しています。私はあなたの答えを賛成しています。また、ケースのリサンプリングは、私がブートストラップベクトルと呼んだものと同じです。
マイケルR.チェニック2016

一部のコメントはモニターによって削除されたと思います。サイトの価格について言及すべきではないかもしれません。私はワイリーとアマゾンをチェックしたとだけ言いたいです。残念ながら、新しい本は常に高価になっています。Wileyのサイトで、ブートストラップブックの初版を非常に低価格で見ました。この本は絶版になっているので、利用できるのは中古のみであり、第2版が発売されたため、需要はありません。新しく販売されている他の同等のテクニカルブックを見てみると、私の新しいブックが他のブックと一致していることがわかります。
マイケルR.チェニック2016

何も削除されていません。書籍の価格設定に関する上記の議論は、質問に密接に関連しているわけではなく、そのため、しばらくすると削除される可能性がありますが、書籍の価格について言及しないという具体的なポリシーはありません。
Scortchi-モニカの回復

問題の本は回答で推奨されていたので、価格の議論は密接に関係しているように思えます。
JKP 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.