空間データへの分布のあてはめ


10

mathoverflowからの質問をクロスポストして、統計固有のヘルプを見つけます。

私は、負でない値を持つ2次元にうまく投影するデータを生成する物理プロセスを研究しています。各プロセスには、 - yポイントの(投影された)トラックがあります-下の画像を参照してください。xy

サンプルトラックは青で、面倒な種類のトラックは緑で手書きされ、関心領域は赤で描かれています。 トラックと関心領域

各トラックは、独立した実験の結果です。数年間で2千万回の実験が行われましたが、そのうち2千回だけがトラックとしてプロットした特徴を示しています。ここでは、トラックを生成する実験のみを考慮しているため、データセットは(約)2000トラックです。

1104

任意のトラックが問題の領域に入る可能性をどのように計算できますか?

関心領域に入るトラックが生成される頻度を確認するのに十分な速さで実験を行うことはできないため、利用可能なデータから推定する必要があります。

xy200

各トラックから問題の領域までの最小距離を調整しましたが、これが正当な結果を生んでいるとは思いません。

1)このタイプのデータに分布を当てはめるための既知の方法はありますか?

-または-

2)このデータを使用してトラックを生成するためのモデルを作成する明白な方法はありますか?たとえば、トラックの主成分分析を大きな空間のポイントとして使用し、それらのコンポーネントに投影されたトラックに分布(ピアソン?)を当てはめます。


1
特定のプロセスについてこれ以上の情報を提供することはできませんが、質問を更新して、データの収集方法について説明します。
Jeff Snider 14

1
より具体的になるように、言語を更新しました。開いた最上階の窓に小石を投げているところを想像してみてください。窓を通過する小石が内側の床で跳ねる様子だけを気にします。私たちは何百万もの小石を投げてきました、そして約2000人が窓を通り抜けました。小石が窓を通り抜けると、床全体の進行状況を追跡します。小石がウィンドウを通過する場合、問題の領域を通過する可能性を推定します。
Jeff Snider 14

回答:


1

トラックの形成をシミュレーションしてからモンテカルロシミュレーションを実行して、赤い領域に入るトラックの数を確認したいようです。これを行うには、まず線を2つの関数に変換します。1つは方向を示し、もう1つはそのトラック上のあるポイントから次のポイントまでの距離を示します。これで、これら2つの関数に関連付けられた確率分布を調べることができます。たとえば、移動距離が特定の分布に従うことがわかります(分布が時間の経過とともに変化しないように注意してください)。どちらかの変数が時間とともに変化する場合は、時系列分析を深く掘り下げる必要があります(私のフィールドではなく、申し訳ありません)。

頭に浮かぶもう1つの考えは、xyの移動方向はほとんどのトラックで徐々に変化するため、トラックの方向の変化と時間の変化をよく調べることです。

また、特定の方向の特定のxy座標で始まるトラックの確率を推定する必要があります。カーネル密度推定を使用して結果のPDFを平滑化することを検討することをお勧めします。または、それが分析モデルがある分布に従うと思われる場合は、期待値最大化を使用して、その分布をデータに適合させることができます。

モンテカルロシミュレーションでは、これらの分布からランダムなサンプルを抽出して、トラックの形状をシミュレートします。次に、多数のトラックをシミュレートして、それらのトラックが赤い領域を通過する頻度を確認する必要があります。これは数千または数百万のトラックになる可能性があります。トラックを追加するにつれて分布が変化しなくなるのを確認するために実験する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.