タグ付けされた質問 「spatial」

数学的計算で直接空間および空間関係(距離、面積、体積、長さ、高さ、方向、中心性、および/または他の空間特性など)を使用する統計的方法に関する研究分野。

1
40,000の神経科学論文は間違っているかもしれません
エコノミストでこの記事を見て、一見壊滅的な [1]「40,000件の公開された[fMRI]研究のようなもの」に疑問を投げかけました。彼らによると、エラーは「誤った統計的仮定」によるものです。私はこの論文を読んで、部分的に多重比較修正の問題があることを確認しましたが、私はfMRIの専門家ではなく、従うのが難しいと感じています。 著者が話している誤った仮定は何ですか?なぜこれらの仮定がなされているのですか?これらの仮定を立てる方法は何ですか? 封筒の計算の裏には、40,000 fMRIの論文が10億ドル以上の資金(学生の卒業生の給与、運営費など)があると書かれています。 [1] Eklund et al。、Cluster failure:fMRIによる空間範囲の推論が偽陽性率を増大させた理由、PNAS 2016

4
なぜ空間自己相関のGAMアカウントに緯度と経度を含めるのですか?
森林破壊のための一般化された加算モデルを作成しました。空間的自己相関を説明するために、緯度と経度を平滑化された相互作用項(つまりs(x、y))として含めました。 著者は「空間的自己相関を考慮して、ポイントの座標は平滑化された用語として含まれている」と言う多くの論文を読んでこれを基にしましたが、これらが実際にそれを説明する理由を説明したことはありません。とてもイライラします。私は答えを見つけることを期待してGAMで見つけることができるすべての本を読みましたが、ほとんど(たとえば、一般化された加算モデル、Rの紹介、SN Wood)は説明なしで主題に触れています。 誰かが空間自己相関の緯度と経度の説明を含める理由を説明できれば、本当に感謝していますs(x、y)inとなしのモデル?また、この用語で説明される逸脱は、空間的自己相関の程度を示していますか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
MantelのテストがMoranのIよりも優先されるのはなぜですか?
Mantelのテストは、動物の空間的分布(空間内の位置)と、たとえば遺伝的関連性、攻撃率、またはその他の属性との相関関係を調べるために、生物学的研究で広く使用されています。多くの優れたジャーナルがそれを使用しています( PNAS、動物行動、分子生態学...)。 自然界で発生する可能性のあるパターンをいくつか作成しましたが、マンテルのテストはそれらを検出するのにまったく役に立たないようです。一方、モランの私はより良い結果を得ました(各プロットの下のp値を参照)。 なぜ科学者はモランのIを代わりに使用しないのですか?見えない隠れた理由はありますか?そして、何らかの理由がある場合、マンテル検定またはモラン検定を適切に使用するためにどのように知ることができますか(仮説をどのように構成する必要があるか)?実際の例が役立ちます。 この状況を想像してください。カラスが各木に座っている果樹園(17 x 17本)があります。各カラスの「ノイズ」のレベルが利用可能であり、カラスの空間分布が彼らが作るノイズによって決定されるかどうかを知りたいです。 (少なくとも)5つの可能性があります。 「羽の鳥が集まってきます。」カラスが似ているほど、それらの間の地理的距離は小さくなります(単一クラスター)。 「羽の鳥が集まってきます。」繰り返しますが、似ているカラスは、それらの間の地理的距離が小さくなります(複数のクラスター)が、ノイズの多いカラスの1つのクラスターは、2番目のクラスターの存在に関する知識を持ちません(そうでなければ、1つの大きなクラスターに融合します) 「単調トレンド。」 「反対は引き付ける。」同様のカラスは互いに立つことができません。 「ランダムパターン。」ノイズのレベルは、空間分布に大きな影響を与えません。 それぞれの場合について、ポイントのプロットを作成し、マンテル検定を使用して相関を計算しました(その結果が重要でないことは驚くことではありません。そのようなポイントのパターン間の線形関連を見つけることは決してありません)。 サンプルデータ:( 可能な限り圧縮) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal <- colorRampPalette(c("blue","red")) my.data <- data.frame(x …

7
平面上のサンプルの中央値、またはより高い順序のスペースについて受け入れられている定義はありますか?
もしそうなら、何?そうでない場合は、なぜですか? ライン上のサンプルの場合、中央値は合計絶対偏差を最小化します。定義をR2などに拡張するのは自然に思えますが、私はそれを見たことがありません。しかし、その後、私は長い間左のフィールドに出てきました。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
Rで視覚的に魅力的な密度ヒートマップを生成する
Rにヒートマップを生成するための一連の機能があることは知っていますが、問題は視覚的に魅力的なマップを作成できないことです。たとえば、下の画像は、避けたいヒートマップの良い例です。最初のものは明らかに詳細に欠けていますが、もう1つは(同じ点に基づいて)あまりにも詳細すぎて有用ではありません。両方のプロットは、spatstat Rパッケージのdensity()関数によって生成されています。 どうすればプロットに「フロー」を追加できますか?私が目指しているのは、市販のSpatialKey(スクリーンショット)ソフトウェアの結果が生成できる外観の詳細です。 この方向に私を連れて行くことができるヒント、アルゴリズム、パッケージまたはコードの行はありますか?

2
John Snow Choleraの問題を解決するために使用できる統計モデルまたはアルゴリズムは何ですか?
John Snow Choleraのアウトブレイクのデータに基づいて、ある種の震源地の地理的近似を作成する方法を学ぶことに興味があります。井戸の位置を事前に知らなくても、このような問題を解決するためにどの統計モデリングを使用できますか。 一般的な問題として、時間、既知のポイントの位置、およびオブザーバーの歩行経路を利用できます。私が探している方法は、これら3つのことを使用して「発生」の震源地を推定します。

2
空間統計モデル:CAR対SAR
自己相関ジオリファレンスされた航空データをモデル化する際に、同時自己回帰モデルよりも条件付き自己回帰モデルを使用したい場合はいつですか?
23 modeling  spatial 

4
画像のエントロピー
画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?私は今、計算効率を気にしません-理論的に可能な限り正確にしたいです。 グレースケール画像から始めましょう。直感的なアプローチの1つは、画像をピクセルのバッグと見なし、を計算することです。 ここで、はグレーレベルの数、はグレーレベル関連する確率です。K p k kH=−∑kpklog2(pk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKpkpkp_kkkk この定義には2つの問題があります。 1つのバンド(グレースケール)で機能しますが、統計的に正しい方法で複数のバンドに拡張する方法を教えてください。たとえば、2つのバンドの場合、を使用してを基にしてPMFを基にしますか?多くの( >> 2)バンドがある場合、、これは間違っているようです。(X1,X2)(X1,X2)(X_1,X_2)P(X1=x1,X2=x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)BBBP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X_1=x_1, ..., X_B=x_B) \sim 1/N^B \rightarrow H_{MAX} 空間情報は考慮されません。たとえば、以下の画像(John Loomisの管理者)は同じ持っていますが、明らかに同じ情報を伝えていません。HHH 誰もが説明やアドバイスをしたい、または主題に関するまともな参考資料を参照したいですか?私は主に、2番目の問題(空間情報)の理論的に正しいアプローチに興味があります。

2
マテルン共分散関数の理論的根拠は何ですか?
マテルン共分散関数は、一般にガウス過程のカーネル関数として使用されます。このように定義されます Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} ここで、は距離関数(ユークリッド距離など)、はガンマ関数、は第2種の修正ベッセル関数、およびは正のパラメーターです。は、実際にはまたはに選ばれた多くの時間です。dddΓΓ\GammaKνKνK_\nuρρ\rhoνν\nuνν\nu3232\frac{3}{2}5252\frac{5}{2} 多くの場合、このカーネルは「滑らかではない」ため標準のガウスカーネルよりもうまく機能しますが、それ以外に、このカーネルを好む他の理由はありますか?それがどのように振る舞うかについてのいくつかの幾何学的な直観、または一見不可解な式の説明は高く評価されるでしょう。

5
標準偏差の2Dアナログ?
次の実験を考えてみましょう。人々のグループに都市のリストが与えられ、世界の(ラベル付けされていない)地図上の対応する場所をマークするように求められます。各都市について、それぞれの都市のほぼ中心にある点の散布図を取得します。イスタンブールなどの一部の都市は、他の都市よりも散乱が少ないとモスクワは言います。 与えられた都市について、testによって割り当てられたマップ上の都市の位置(ローカル座標系など)を表す2Dサンプルのセットを取得すると仮定しましょう件名。このセットのポイントの「分散」の量を、適切な単位(km)の単一の数値として表現したいと思います。{(xi,yi)}{(xi,yi)}\{(x_i, y_i)\}(x,y)(x,y)(x, y)iii 1D問題の場合、標準偏差を選択しますが、上記のような状況に対して合理的に選択できる2Dアナログはありますか?

2
マップでの空間的および時間的相関の表示
私は全米の気象観測所のネットワークのデータを持っています。これにより、日付、緯度、経度、測定値を含むデータフレームが表示されます。データは1日に1回収集され、地域規模の天候によって駆動されると仮定します(いいえ、その議論に入るつもりはありません)。 同時に測定された値が時間と空間にわたってどのように相関するかをグラフィカルに示したいと思います。私の目標は、調査されている価値の地域的な均質性(またはその欠如)を示すことです。 データセット まず、マサチューセッツ州とメイン州の地域にあるステーションのグループに参加しました。NOAAのFTPサイトで利用可能なインデックスファイルから緯度と経度でサイトを選択しました。 すぐに1つの問題が表示されます。同じような識別子を持つサイトや非常に近いサイトがたくさんあります。FWIW、私はUSAFとWBANコードの両方を使用してそれらを識別します。メタデータを詳しく見ると、座標と標高が異なり、データはあるサイトで停止してから別のサイトで開始することがわかりました。それで、私はそれ以上良く分からないので、それらを別々のステーションとして扱わなければなりません。これは、データが互いに非常に近いステーションのペアを含むことを意味します。 予備分析 暦月ごとにデータをグループ化して、異なるデータのペア間の通常の最小二乗回帰を計算してみました。次に、すべてのペア間の相関を、ステーションを結ぶ線としてプロットします(下図)。線の色は、OLS近似からのR2の値を示しています。図は、1月、2月などからの30以上のデータポイントが、対象エリアの異なるステーション間でどのように相関しているかを示しています。 6時間ごとにデータポイントがある場合にのみ1日の平均が計算されるように基礎となるコードを記述したため、データはサイト間で比較可能である必要があります。 問題点 残念ながら、1つのプロットで意味をなさないデータが多すぎます。行のサイズを小さくしても修正できません。 領域内の最近傍間の相関をプロットしようとしましたが、それはすぐに混乱に変わります。以下のファセットは、ステーションのサブセットから最近傍を使用して、相関値のないネットワークを示しています。この図は、概念をテストするためのものです。 kkk ネットワークは複雑すぎるように見えるので、複雑さを軽減する方法、または何らかの空間カーネルを適用する方法を見つける必要があると思います。 また、相関を示すのに最も適切なメトリックが何であるかはわかりませんが、意図した(非技術的な)対象者にとっては、OLSからの相関係数が最も簡単に説明できるかもしれません。勾配や標準誤差などの他の情報も提示する必要がある場合があります。 ご質問 私はこの分野とRへの道を同時に学んでいます。 私がやろうとしていることの正式な名前は何ですか?より多くの文献を見つけることができる役立つ用語はありますか?私の検索は、一般的なアプリケーションでなければならないもののために空白を描いています。 スペースで区切られた複数のデータセット間の相関を示すより適切な方法はありますか? ...特に、視覚的に結果を簡単に表示できる方法はありますか? これらのいずれかがRに実装されていますか? これらのアプローチのいずれかが自動化に役立ちますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
空間的自己相関と空間的定常性
2次元空間に点があり、属性が属性yに与える影響を測定したいとします。典型的な線形回帰モデルは、もちろん XXXyyyy=Xβ+ϵy=Xβ+ϵy= X\beta + \epsilon ここには2つの問題があります。1つ目は項が空間的に相関している(独立および同一のエラー仮定に違反している)ことであり、2つ目は空間全体で回帰勾配が変化することです。最初の問題は、次のように空間ラグ項をモデルに組み込むことで対処できます。ϵϵ\epsilon y=ρWy+Xβ+ϵy=ρWy+Xβ+ϵy=\rho W y + X\beta + \epsilon LeSageとPaceのテキストで説明されている空間Durbinモデルに、空間的に自己回帰的な省略された変数(空間固定効果)を組み込むこともできます。 y=ρWy+Xβ+WXλ+ϵy=ρWy+Xβ+WXλ+ϵy=\rho W y + X\beta + WX\lambda + \epsilon ここで、は、重み行列によって制御される空間相関の強度です。明らかに、空間ラグの形式は、空間相関の形式に関する仮定に依存します。ρρ\rhoWWW 2番目の問題は、「地理的に重み付けされた回帰」(GWR)を使用して対処されています。(1998)。私が知る限り、回帰モデルの配列を重み付きサブ領域に適合させ、そのスペースに基づいて変化する各推定値を取得することを伴います、 ここで、は別の空間重み行列であり、必ずしも上記のものとは異なりません。βiβi\beta_iβ^i=(XTWiX)−1XTWiyβ^i=(XTWiX)−1XTWiy\hat{\beta}_i = (X^TW_iX)^{-1}X^T W_i yWWW 私の質問:平均限界効果の不偏推定得るのに十分ではない第一の方法(空間的自己回帰)が上の?GWRは過剰適合のように見えます。もちろん、空間の変化ですが、空間的位置に関係なく治療の平均期待効果を知りたい場合、GWRは何に貢献できますか?XXXyyyββ\beta これが私の最初の答えの試みです。 特定の近所の追加の寝室の保険料を知りたい場合、GWRが私の最善の選択肢であると思われます。 追加の寝室の公平な世界平均プレミアムを知りたい場合は、空間自己回帰手法を使用する必要があります。 他の視点を聞きたいです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.