タグ付けされた質問 「ecology」

生態学は、生物がどのように環境や相互作用するかを研究することです。生態学は、いくつかの特殊な統計手法(例:順序付け方法)を使用します。このタグを使用して、生態学に固有の、または生態学的コンテキストの認識を必要とする統計のアプリケーションを示します。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
PCA /コレスポンデンス分析の「馬蹄形効果」および/または「アーチ効果」とは何ですか?
多次元データの探索的データ分析のための生態学的統計には多くの手法があります。これらは「調整」技術と呼ばれます。多くは、統計の他の場所にある一般的な手法と同じか、密接に関連しています。おそらく、プロトタイプの例は主成分分析(PCA)です。エコロジストは、PCAおよび関連する手法を使用して「勾配」を探索する場合があります(勾配とは完全には明確ではありませんが、それについて少し読んでいます)。 で、このページの下の最後の項目主成分分析(PCA)は、読み取ります。 PCAには、植生データにとって重大な問題があります。それは、馬蹄形効果です。これは、勾配に沿った種の分布の曲線性によって引き起こされます。種の応答曲線は通常、単峰性(つまり、非常に強い曲線)であるため、馬蹄形効果が一般的です。 ページのさらに下の、コレスポンデンス分析または相互平均(RA)の下で、「アーチ効果」を参照します。 RAには問題があります:アーチ効果。また、勾配に沿った分布の非線形性によっても発生します。 勾配の両端は入り組んでいないため、アーチはPCAの馬蹄形効果ほど深刻ではありません。 誰かがこれを説明できますか?最近、この現象を低次元空間のデータを表すプロットで見ました(つまり、コレスポンデンス分析と因子分析)。 「勾配」は、より一般的に(つまり、非生態学的な文脈で)何に対応しますか? これがデータで発生した場合、それは「問題」(「深刻な問題」)ですか?何のために? 馬蹄/アーチが現れる出力をどのように解釈する必要がありますか? 救済策を適用する必要がありますか?何?元のデータの変換は役立ちますか?データが序数評価の場合はどうなりますか? 回答は、そのサイトの他のページに存在する場合があります(PCA、CA、およびDCAなど)。私はそれらを介して作業しようとしています。しかし、議論は十分になじみのない生態学的用語と例にまとめられており、問題を理解することはより困難です。

2
ロジスティック回帰に関する質問
バイナリロジスティック回帰を実行して、10年間(1997年から2006年)にわたって独立変数のセットからの競合(従属変数)の有無をモデル化し、毎年107回の観測を行います。私の独立者は: 土地の劣化(2種類の劣化のカテゴリ); 人口増加(0- no; 1-yes); 生計タイプ(0-タイプ1、1-タイプ2); 人口密度(3レベルの密度); NDVI連続(最大野菜生産性); NDVI t − 1(前年の野菜の減少-0-いいえ、1-はい)およびt − 1t−1_{t-1} およびNDVI t − 2(過去2年からの野菜の減少-0-いいえ、1-はい)。トン- 2t−2_{t-2} 私は全く新しいです-これは私の講師が私に与えたプロジェクトです-だから私はいくつかのアドバイスやガイダンスに感謝するでしょう。私はすでにマルチコリニリティについてテストしました。 基本的に、私のデータは10年間(合計1070)をカバーする107の観測単位(空間領域)に分割され、観測単位ごとに、その単位内のその時点の独立変数の条件の「スナップショット」値になります(領域)。ロジスティック回帰(またはテーブル)を設定して、各年の107個の値を個別に認識して、異なる単位年間の一時的なNDVIの変化を評価できるようにする方法を知りたいですか?

4
glmerでのランダム効果の分散の解釈
データが二項分布である受粉に関する論文を改訂しています(果実は成熟するかしないか)。そのためglmer、1つのランダム効果(個々の植物)と1つの固定効果(治療)を使用しました。レビューアーは、植物が結実に影響を与えたかどうかを知りたいのですが、glmer結果の解釈に問題があります。 私はウェブを読んでみましたが、直接比較glmとglmerモデルに問題がある可能性があるので、私はそれをしていません。この質問に答える最も簡単な方法は、変量効果の分散(1.449、以下)を総分散、または処理によって説明される分散と比較することだと考えました。しかし、これらの他の分散をどのように計算しますか?以下の出力には含まれていないようです。二項glmer分布に含まれない残差分散について何かを読みました-ランダム効果の相対的な重要性をどのように解釈しますか? > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance df.resid 125.9 131.5 -59.0 117.9 26 Scaled residuals: Min 1Q Median 3Q Max -2.0793 -0.8021 -0.0603 0.6544 …

2
ロジスティック成長データの周りのエラーの分布はどうですか?
生態学では、ロジスティック成長方程式をよく使用します。 Nt=KN0ertK+N0ert−1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} または Nt=KN0N0+(K−N0)e−rtNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} ここで、は運搬能力(到達した最大密度)、は初期密度、は成長率、は初期からの時間です。KKKN0N0N_0rrrttt の値には、ソフトな上限と下限、強い下限があり。NtNtN_t(K)(K)(K)(N0)(N0)(N_0)000 さらに、私の特定のコンテキストでは、測定は、光学密度または蛍光を使用して行われます。どちらも理論上の最大値、つまり強い上限があります。NtNtN_t したがって、周りのエラーは、おそらく有界分布によって最もよく説明されます。NtNtN_t 値が小さい場合、分布にはおそらく強い正のスキューがあり、値がKに近づくと、分布にはおそらく強い負のスキューがあります。したがって、分布にはおそらくにリンクできる形状パラメーターがあります。NtNtN_tNtNtN_tNtNtN_t 分散もとともに増加する可能性があります。NtNtN_t これはグラフィカルな例です と K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 これはrで生成できます library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 周りの理論的な誤差分布はどうなりますか(モデルと提供された経験的情報の両方を考慮して)?NtNtN_t この分布のパラメーターはまたは時間の値にどのように関連していますか(パラメーターを使用していた場合、モードを直接関連付けることができません(例:logis normal))。NtNtN_tNtNtN_t この分布には、実装されている密度関数がありますか?RRR これまでに探索された方向: 周りの正規性を仮定します(推定の超過につながります)NtNtN_tKKK 付近のロジット正規分布、ただし形状パラメーターのアルファとベータのフィッティングは困難Nt/maxNt/maxN_t/max ロジック周辺の正規分布Nt/maxNt/maxN_t/max
10 r  distributions  pdf  ecology 

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
変数を説明変数に分割するために使用する基準と、生態学の順序付け方法の応答は何ですか?
母集団内で相互作用するさまざまな変数があります。基本的に、私はヤスデのインベントリを作成し、次のような地形の他の値を測定しています。 収集した標本の種類と量 動物がいるさまざまな環境 pH 有機物の割合 P、K、Mg、Ca、Mn、Fe、Zn、Cuの量 Ca + Mg / K関係 基本的に、PCAを使用して、サンプルの変動性を駆動し、フォレスト(環境)を異なるものにする変数を決定します。「変数」にはどの変数を使用し、「個人」にはどの変数を使用すればよいですか?

3
統計生態学に関する本?
私はこの質問が以前に尋ねられたことを知っています:生態学的研究のための参考書ですが、それは私が探しているものではありません。 私が探しているのは、統計生態学についての良い本(または標準的な参考文献)を誰かが推薦できるかどうかです。私は統計を非常によく理解しているので、本は本当にどんなレベルでもありえます。私はこの本を使って、生態学における統計学の応用について何よりも自分自身に教えるので、良い/興味深い例の紹介本でも大いに評価されます。また、私の研究はベイジアン統計を対象とする傾向があるので、ベイジアン統計を組み込んだ本はさらに良いです!

1
周波数が大きく異なる点プロセスの四角形を構築する方法は?
複数のポイントプロセス(または1つのマークされたポイントプロセス)でクアドラットカウント分析を実行し、いくつかの次元削減手法を適用したいと考えています。 マークは均等に分散されていません。つまり、非常に頻繁に表示されるマークもあれば、非常にまれなマークもあります。したがって、2Dスペースを通常のグリッドで単純に分割することはできません。マークの頻度が高くなると、頻度の低いマークが「圧倒」され、外観がマスクされてしまうためです。 したがって、各セルに最大N個のポイントが含まれるようにグリッドを構築しようとしました(これを行うには、各セルを4つの小さい(同じサイズの)セルに再帰的に分割し、セルがN個を超えるポイントがなくなるまで再帰的にそれ)。 この「正規化」手法についてどう思いますか?そのようなことをする標準的な方法はありますか?

1
個々のデータセットでボックスコックス変換を使用すると、これらのデータを比較できなくなりますか?
ソフトウェア作成者が推奨するように、ボックスコックス変換を使用してデータを正規化し、生態学的ニッチ因子分析ソフトウェアに入力しました。 しかし、ボックスコックス変換メソッドが(明らかに!)変換ごとに異なるラムダ値を選択していることに気付きました。たとえば、4つのサンプル日付の個々の場所に対する因子A、B、およびCの影響を比較したいとします。各因子は個別にボックスコックス化されています(他の因子および他の日付とは別に)。これは、各変換に異なるラムダ値を選択しているため、各因子分析の結果が比較できない(そして、ANOVAなどによる変換データの単純な比較ができない)ことを意味しますか?

3
マルチレベルのカテゴリカルデータの分布の分散
現在、さまざまな特性(都市など)を持つ大規模なデータセットを分析しています。私は、データ全体でどの程度の差異があったか、またはほとんどなかったかを示すメジャーを見つけたかったのです。これは、単純に異なる要素の数を数えるよりもはるかに便利です。 たとえば、次のデータについて考えます。 City ---- Moscow Moscow Paris London London London NYC NYC NYC NYC 4つの異なる都市があることがわかりますが、分布がどれほどあるかはわかりません。私が思いついた「式」の1つは、各要素の合計データセットの割合の合計を取ることでした。この場合は、になります(2/10)^2 + (1/10)^2 + (3/10)^2 + (4/10)^2。私にはこれに対する実際の数学的証明はありませんが、それについて考えました。 この場合、たとえば、10要素のセットで、9が同じで1が異なる場合、その数はになります(9/10)^2 + (1/10)^2。しかし、それが半分であるならば、それはそうなるでしょう(5/10)^2 + (5/10)^2。 似たような公式や研究分野について意見を求めたかったのです。いくつかのグーグル検索で本当に何も見つけることができませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.