コルモゴロフ・スミルノフ検定?


8

小さな海鳥への船の往来による妨害について研究しています。焦点の合った動物を一定時間観察し、観察中に水から飛んだかどうかを記録しました。この特定の鳥は、邪魔されていないとき(時間の約10%)、高い確率で飛ぶことはありません。事後、最も近い船までの距離をすべての観測に追加しました(関心のある船にはGPSロケーターが5秒ごとにポイントを記録していました)。

すべての観測と、鳥が水から飛んだ観測の累積分布関数を、最も近い船までの距離の関数としてプロットしました。予想通り、鳥が飛んだ観測の大部分は、船が近いときに観測されました。

ecdfプロット、飛行、飛行しなかった、すべてのobs

コルモゴロフ-スミルノフ検定を使用して、飛行観測と総観測の分布に統計的差異があるかどうかをテストできますか?私の考えでは、これらの2つの分布が異なる場合、船の距離が飛行に影響を与えていると考えられます。飛行観測は観測全体のサブセットであるため、これらの分布関数は独立していないので心配です。

考え?

このサイトでもう少し読んだ後、飛行が発生した観測の分布(F)が発生しなかった観測(NF)の分布に対して独立しているため、これらの分布をテストできると思います。これらの分布が同じF = NFの場合、(F)と(TOT =すべての観測値)の分布は、(F)の分布がそれ自体と等しく、(F)+ (T)=(TOT)。正しい?

更新:2014年2月12日

@Scortchiの提案に従って、ロジスティック回帰フレームワークで飛行の発生率と最も近い船までの距離の関係を調査しました。存在するわずかな関係(負の勾配)がありましたが、p値は有意ではなく、真の勾配がゼロである可能性があることを示唆しています。見かけ上の統計(ecdfプロットを含む)に基づいて、船が行動に影響を与えていなかったときに、多くの観察によって接近した船の影響がおおわれているのではないかと思いました。次に、セグメント化されたRパッケージを使用しました(http://cran.r-project.org/web/packages/segmented/segmented.pdf)モデルのブレークポイントを探して見つけます。プログラムは、船から2.6 kmでデータを分割し、2つの個別の係数をフィッティングすることが、単一の係数モデルよりも優れていることを発見しました。接近船進入の勾配の係数は負であり、船が約2.6 km(p値<0.001)まで飛行応答に影響を与えることを示唆しています。2番目の勾配の係数はわずかに正でしたが、p値は0.05アルファレベルで有意ではありませんでした(p値= 0.11)。したがって、要約すると、セグメント化された回帰直線は、飛行確率が増加するしきい値の差を検出できました。船が2.6 kmを超えている場合の飛行確率の推定値は0.11です。ふさわしいことに、私は調査湾に船がなかったときに79羽の鳥を観察しました(>

すべての提案をありがとう。この質問と提案と回答が他の人に役立つことを願っています。


飛んでいる/応答として飛ばなかったロジスティック回帰と、予測子として最も近い船までの距離がないのはなぜですか?
Scortchi-モニカの回復

私はそれを試しました。切片は重要ですが、傾きは重要ではありません。生物学的に関連のない距離のデータには、ノイズ(飛行)が多すぎます。これは、この種で発生する自然の飛行です。船が飛行に影響を与える距離を正確に示して、観測を船の「存在下」または「不在下」としてグループ化できるようにしています。D統計が計算される最大距離またはポイントによって、その目標に近づく可能性があると思います。
marcellt 2014年

2
悪い考え- ここを参照してください。また、応答変数を使用して連続変数を分割する場所を決定することは、係数推定にバイアスをかけるため、特に好ましくありません。予測子に対する応答のロジットの関係で曲率を確認しましたか?
Scortchi-モニカの回復

1
テスト(F対NF)、またはECDFが最も離れている距離の決定に問題はありません。ただし、(a)データを使用してコントロールおよび治療グループを定義し、それらのグループで同じデータをテスト/モデル化することは無効です。(b)鳥が影響を受けず、影響を受ける範囲を超えていると本当に思わない限り、それは将来のデータに対してさえ鳥をモデル化するのに悪い方法です。(c)ECDF間の明らかな違いを考えると、適切に指定されたロジスティック回帰は、飛行確率に対する船の距離の大きな影響を示しているはずです。
Scortchi-モニカの回復

1
(i)2つを独立させることができず、テストを調整する必要があるため(A vs A + B)、実際には比較したくありません(多くの場合、注意が必要です)。A対Bをテストし、独立性を維持します。それ以外の場合、標準テストは機能しません。(ii)回避できる場合は、予測子の離散化を避けたい。
Glen_b-モニカを2014

回答:


1

興味深い問題。私は2つの考えを持っています。1つは一般的なもので、もう1つはデータの特徴付け方法についてです...

まず、分布の比較に関して、グラフに示すようにFlyとAllを比較したくない@Glen_bと@Scortchiに同意します(ただし、D統計のプロットをオーバーレイするのはいい考えです)。分布が異なる可能性が高い場所ではなく、分布が異なる可能性があるという強い確信があるので、2つの分布の分位数を比較することを検討してください。テスト方法を開発するためにRコードを介して動作する件名に関する素晴らしいブログ投稿があります。また、変位値ベースのテスト方法を実装するRパッケージWRSがあります。

第二に、正式な比較テストの使用を完全にやめ、代わりにエビデンスの重み(WOE)を使用することを検討します。このアプローチは、さまざまな予測因子にわたって異なるレベルのリスクを処理する意思決定フレームワークを必要とする業界で一般的に使用されています。例としては、保険引受、信用評価、および臨床試験が含まれます。

あなたの設定では、飛行のベースライン「リスク」があります(あなたは10%と言いました)が、飛行の確率は、特定の距離にある船の存在下で大幅に増加するようです。WOEアプローチを使用すると、船の距離の関数として飛行のオッズの変化を伝えることができます。これは、一般の聴衆にとっては理解しやすいです(少なくとも、テスト統計に関連するp値を理解するよりは簡単です)。これは、ロジスティック回帰を使用するという@Scortchiの提案と密接に関連していますが、WOEでは回帰モデルを適合させようとしているわけではないことに注意してください。

StatisticaのWebサイトにメソッドを適用するための素晴らしいドキュメントがありますが、私が見つけた最良の紹介は、クレジットスコアリング、応答モデリング、および保険評価:消費者行動を予測するための実践ガイドです。「WOE」という用語で検索すると、アイデアを説明するセクションが複数見つかります。セクション5.1では、WOEの計算(かなり簡単です)の完全な例と、意思決定のための結果の評価について説明します。最後に、このトピックにはあまり開発されていないstackoverflow投稿がありますが、SASコーディングのコンテキストで別の例を紹介しているPDFへのリンクがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.