タグ付けされた質問 「spatial」

数学的計算で直接空間および空間関係(距離、面積、体積、長さ、高さ、方向、中心性、および/または他の空間特性など)を使用する統計的方法に関する研究分野。

3
移動履歴のみを使用してネットワーク上の次の移動を予測する統計モデル
過去の動きとグラフの構造のみに基づいて、グラフの次の動きを予測する統計モデルを構築することは可能ですか? 私は問題を説明するために例を作りました: 時間は離散的です。すべてのラウンドで、現在のノード/頂点に留まるか、接続されたノードの1つに移動します。時間は離散的であり、せいぜい1つのノードをラウンドごとに進めることができるため、速度はありません。 過去のルート/移動履歴:{A、B、C} -現在の位置:C 有効な次の手:C、B、X、Y、Z Cを選択した場合、固定されます。 場合Bあなたが後方に移動し、 そしてもしX、Y、またはZが前進を意味します。 リンクにもノードにも重みはありません。 最終的な宛先ノードはありません。観察された動きの動作の一部はランダムであり、一部には一定の規則性があります。 移動履歴を考慮しない非常に単純なモデルは、C、B、X、Y、およびZがそれぞれ次の移動になる確率が1/5 であると予測するだけです。 しかし、構造と運動履歴に基づいて、より良い統計モデルを作成することは可能だと思います。たとえば、前のラウンドでノードBから直接そこに移動した可能性があるため、インスタンスXの確率は低くなるはずです。同様に、Bも前のラウンドで固定されていた可能性があるため、確率が低くなります。 ユーザーがBに戻った場合、移動履歴は{A、B、C、B}のようになり、有効な移動はA、B、C、D、E、Xになります。Cへの移行は、固定されたままであった可能性があるため、確率が低くなるはずです。前のラウンドでCからXに移動できた可能性があるため、Xに移動する可能性も低くなります。以前の履歴も予測に影響を与える可能性がありますが、最近の履歴よりも重みを小さくする必要があります。2ラウンド前にBに滞在したか、A、D、E、Xに移動した可能性があります-3ラウンド前にAに滞在した可能性があります。 周りを見回すと、同様の問題が直面していることがわかりました。 移動体通信。オペレーターは、ユーザーが次に移動するセルタワーを予測して、通話/データ伝送をスムーズに引き継ぐことができるようにします。 ブラウザ/検索エンジンが次に進むページを予測しようとするWebナビゲーション。これにより、ページがプリロードおよびキャッシュされ、待機時間が短縮されます。同様に、マップアプリケーションは次に要求するマップタイルを予測し、これらをプリロードしようとします。 そしてもちろん運輸業界。

1
Local Moran's Iのp値が有意である場合、Zスコアを確認する必要がありますか?
私が使用しているデータセットには、エリアごとの収入データが含まれています。次の図に示すように、値は通常は分散されません。Global Moran's Iは有意な空間パターンを示し、Local Moran's Iは有意なホットスポットとコールドスポットを検出します(p値による)。Zスコアを確認すると、コールドスポットが有意なレベルに達していないことがわかります。これは所得の分布に起因するのでしょうか?別にやるべきことはありますか?たぶん、ログ収入を使うのでしょうか? または、p値に問題がない限り(=有意、<0.05)、Zスコアを単に無視できますか? (PySALを使用してグローバルとローカルの両方のモランIを計算します。) これはログ収入のヒストグラムです: 更新: 私は最近、収入値が通常分布している別の国から別の収入データセットを取得しました。このデータセットのローカルモランのI計算では、p値とzスコアの両方に従って、重要なホットスポットとコールドスポットが生じます。

1
「後部正中面」のプロット
この質問で部分的に説明したモデルをスタックオーバーフローで再現する一環として、事後分布のプロットを取得します。(空間)モデルは、一部の物件の販売価格を、物件が高価(1)であるか安価(0)であるかに応じて、ベルヌーイ分布として記述します。方程式では: yi∼Bernoulli(pi)yi∼Bernoulli(pi)y_{i} \sim \text{Bernoulli}(p_{i}) pi∼logit−1(b0+b1LivingArea/1000+b2Age+w(s))pi∼logit−1(b0+b1LivingArea/1000+b2Age+w(s))p_{i} \sim \text{logit}^{-1}(b_{0} + b_{1}\text{LivingArea}/1000 + b_{2}\text{Age} + w({\bf{s}})) w(s)∼MVN(0,Σ)w(s)∼MVN(0,Σ)w({\bf{s}}) \sim \text{MVN}({\bf{0}}, {\bf{\Sigma}}) どこ yiyiy_{i} バイナリの結果1または0です。 pipip_{i} 安かったり高かったりする確率です w(s)w(s)w({\bf{s}}) 空間確率変数です。 ss\bf{s} その位置を表します。それぞれのこれすべて i={1,...,70}i={1,...,70}i = \{1, ..., 70\} データセットには70のプロパティがあるためです。 ΣΣ\bf{\Sigma}データポイントの地理的位置に基づく共分散行列です。このモデルに興味がある場合は、ここにデータセットがあります。 取得したいプロットは、次の等高線プロットです。 この図は、「潜伏プロセスの後部正中面のイメージプロットとして説明されています。 w(s)w(s)w({\bf{s}})、バイナリ空間モデル」。本はこれも言います: 図5.8は、潜在の後方平均表面の等高線を重ねた画像プロットを示しています w(s)w(s)w({\bf{s}}) 処理する。 ただし、データセットには70組のポイントしかありません。等高線図を作成するには、推定する必要があると思いますw(s)w(s)w({\bf{s}})70 * 70ポイントで。だから、私の質問です:この後部正中面をどのように生成しますか?これまでのところ、(PyMCを使用して)関連するすべてのパラメーターの事後分布のサンプルがあり、予測できることがわかっています。y∗y∗y^*事後予測分布を使用して新しいポイントで。しかし、私は値を予測する方法がわかりませんw(s)w(s)w({\bf{s}}) 新しい時点で s∗s∗s^*。多分私は間違っていて、プロットは予測ではなく補間によって構築されました。 更新: まず、これはの事後分布の中央値です w(s)w(s)w({\bf{s}})プロパティがある各場所で。これは、MCMCトレースに基づいていますwww。 そして、これは動径基底関数を使用した補間(等高線図付き)です。 (コードに興味がある場合はお知らせください) ご覧のとおり、プロットには大きな違いがあります。いくつかの質問: …

1
RandomForestは空間的独立性を無視しますか?
世界の国ごとに5つの変数があり、独立変数に対するそれらの影響と相互作用を分析する必要があります。ランダムフォレストは、非線形の関係を扱い、変数の重要性を予測するため、私のスコープには適切です。しかし、空間依存が問題になるのではないかと思います。それが空間データに広く使用されている場合でも、RFアプリケーションで説明されている空間依存性を見たことがありません。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
定常性-仮定と検討
150 x 150メートルで、15メートル間隔で等間隔​​に配置された121のトラップステーションで構成される6つの恒久的なげっ歯類捕獲グリッドでのげっ歯類の捕獲を調べています。調査サイトには、サイズが1000ヘクタール未満のこのようなトラップグリッドが6つあります。キャプチャデータを補間して、げっ歯類の活動のクリグドサーフェスを作成します。補間の前提は、データが静止していることです。 フォルタン&デール(2005)の状態 定常性は、サンプリングされていない場所でのデータの空間構造のプロセスを特徴付けるモデルから推論を行うために必要です。 私が理解していることから、その統計的特性(平均と分散)が空間全体で変化しない場合、プロセスは定常的であると説明できます。 しかし、最初に空間分析を行う理由は、空間全体の変動ではないでしょうか。 定常性は、空間/地理統計分析の文献で頻繁に紹介されていますが、私はまだ確かな方向性と情報を見つける必要があります どのスケール、またはどのタイプの研究についても、データが静止していると仮定するのが妥当です。 データを検査および検証する方法が定常的であり、最後に ある方法でいったん定量化されると、ある領域から次の領域へのどれだけの違いがデータを非定常として認定しますか? これまでのところ、文献をレビューした後、概念と定常性の検査は非常に主観的、恣意的、および/または難読化されているようです。 誰かがこの問題について実用的なアドバイスを提供できるなら、私はそれを大いに感謝します!

1
与えられたバリオグラムに従うデータを生成する
これは、調査中のフィールドを介した変数の空間依存性の記述子としてバリオグラムを計算するために、座標のセット(たとえば、2Dとして{x,y})と少なくとも関連する変数(たとえば、v)を持つ簡単なアプローチです。 v 質問は私に現れました: バリオグラムを持つデータセットの実現をどのように生成するか?(逆移動!) つまり、少なくとも1つのバリオグラムが利用可能ですが、データセットも他の説明も利用できず、そのようなバリオグラムを持つ可能性のある元の(不明な)データセットの実現を生成することが目標です。 そのような実現がある確率はどれくらいですか? 更新/コメント:variogram上記の文脈 から、私は経験的バリオグラムを意味します。バリオグラムモデルのフィッティングは、少なくともこの質問では問題ではないと思います。また、バリオグラムはペア(h、ガンマ)としても利用できます。

2
空間点プロセス:不均一な1次強度関数は2次依存性に影響しますか?
タイトルが示すように、一次強度関数の効果について少し混乱しています。特定の領域でポイントが発生する可能性が高いと言う一次強度関数がある場合、その領域で発生するポイントがはるかに多くなり、ポイントがその領域でクラスター化しているように見え、その後その領域で点パターンがクラスター化されていることを示唆しています。したがって、1次強度の不均一性は2次強度に影響を与えるようです。 私の理解では、一次強度関数は、ポイントが発生する強度の一般的なレベルを指定します。次に、その強度に基づいて、特定の領域のポイントが同じ強度のポアソンプロセスと比較してクラスター化されているか反発的であるかが、2次の強度関数によって決定されます。 私の理解が正しければ、一次強度をできるだけ詳細に記述すれば、どの点パターンも不均一なポアソンプロセスと見なすことができます。しかし、もちろん、それは過剰適合の場合になります。 この理解は正しいですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.