タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

3
モデリングに関する一般的なアドバイス
問題の数学モデルを定式化することは、統計の最も主観的な側面の1つですが、最も重要な側面の1つでもあります。この重要だが見過ごされがちなトピックに対処するための最良のリファレンスは何ですか?そして、どの有名な統計学者が「データがモデルを導くのか」という線に沿って何か言った。

2
フィッティングなしでモデルを比較するにはどうすればよいですか?
自然科学では、回帰と機械学習を使用して、仮説をテストし、パラメーターを推定し、モデルをデータに適合させることで予測を行います。ただし、アプリオリモデルがある場合は、フィッティングを行いたくありません。たとえば、第一原理から計算された決定論的な物理システムのモデルなどです。モデルがデータとどの程度一致しているかを知り、モデルのどの部分が一致に大きく貢献しているかを知りたいだけです。誰かがこれを行うための統計的に厳密な方法に私を向けることができますか? より具体的な用語で、私は従属変数の測定対象の物理的システムがあると( 1からの範囲様々な条件下では、サンプルサイズ)は、3つの独立変数によって記述、、および。データを生成した実際のシステムは複雑ですが、システムの理論モデルを導出するためにいくつかの簡略化の仮定を行いました。yiyiy_iiiinnnx1,ix1,ix_{1,i}x2,ix2,ix_{2,i}x3,ix3,ix_{3,i}fff yi=f(x1,i,x2,i,x3,i)+ϵiyi=f(x1,i,x2,i,x3,i)+ϵiy_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i、 ここで、は独立変数の非線形(線形化可能ではない)関数であり、はモデルの予測値と測定値の差です。は完全に事前に指定されています。フィッティングは行われず、パラメーターは推定されません。私の最初の目標は、が測定値を生成したプロセスの妥当なモデルであるかどうかを判断することです。fffϵiϵi\epsilon_iffffffyiyiy_i また、簡略化されたモデルとも開発しました。これらはネストされています(この場合重要です)。私の2番目の目標は、fがgまたはhよりもはるかによくデータと一致するかどうかを判断することです。モデルfをモデルgおよびhと区別する機能がy iを生成するプロセスで重要な役割を果たすことを示唆しています。g(x1,i,x2,i)g(x1,i,x2,i)g(x_{1,i}, x_{2,i})h(x1,i)h(x1,i)h(x_{1,i})ffffffggghhhfffggghhhyiyiy_i これまでのアイデア おそらく、私の数学モデルのパラメーターの数または自由度の数を決定する方法があった場合、尤度比検定やAIC比較などの既存の手順を使用することが可能です。ただし、fffの非線形形式と明らかなパラメーターがないため、パラメーターを割り当てるのが妥当であるか、それとも自由度を構成するものを想定するのが妥当かどうかはわかりません。 決定係数(R2R2R^2)などの適合度の測定値を使用して、モデルのパフォーマンスを比較できることを読みました。ただし、R2R2R^2値間の有意差のしきい値が何であるかは、私にはわかりません。さらに、モデルをデータに適合させていないため、残差の平均はゼロではなく、モデルごとに異なる場合があります。したがって、データを過小予測する傾向があるよく一致するモデルは、偏りはないがデータとの一致が不十分なモデルと同じくらいR2R2R^2値が低くなる可能性があります。 適合度テスト(例:Anderson-Darling)についても少し読んだことがありますが、統計は私の分野ではないので、このタイプのテストが私の目的にどれだけ適しているかはわかりません。どんなガイダンスもいただければ幸いです。

2
重みとオフセットは、ポアソン回帰で同様の結果をもたらすことができますか?
では、「一般化線形モデルにA実施者のガイド」のパラグラフ1.83でそれがことが述べられています。 「ポアソン乗法GLMの特定のケースでは、エクスポージャーの対数に等しいオフセット項を使用してクレームカウントをモデリングすると、以前の重みが各観測のエクスポージャーと等しくなるように設定されたクレーム頻度のモデリングと同じ結果が生成されたことが示されます。 」 私はこの結果についてこれ以上の参考文献を見つけることができなかったので、ステートメントが正しいことの証拠を見つけることができなかったいくつかの経験的テストを行いました。この結果が正しい/間違っている理由について誰かが洞察を提供できますか? 参考までに、私は次のRコードを使用して仮説をテストしました。この仮説では、上記の2つのケースで同様の結果を得ることができませんでした。 n=1000 m=10 # Generate random data X = matrix(data = rnorm(n*m)+1, ncol = m, nrow = n) intercept = 2 coefs = runif(m) offset = runif(n) ## DGP: exp of Intercept + linear combination X variables + log(offset) mu = exp(intercept + X%*%coefs + log(offset)) …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

3
現実世界における統計的独立
統計的独立性に関する次の記事を読みました。要約すると、この記事は「科学が統計的独立のフィクションを撤回する時がきた」と論じ、その理由を説明します。記事を読んだので、私は同意する傾向があります。私は次のことを知りたかった: 他の相互検証されたユーザーはどう思いますか? 記事で述べられている概念を確認または拒否することを私に指摘できる学術的リソースはありますか?より具体的には、現実のデータセットが統計的独立性を示すか(示さないか)どうか。 ありがとう!

1
複数のARIMAモデルはデータによく適合します。順序を決定する方法は?正しいアプローチ?
2つの時系列(男性と女性のモデルのパラメーター)があり、予測を行うために適切なARIMAモデルを特定することを目指しています。私の時系列は次のようになります。 プロットとACFは非定常を示しています(ACFのスパイクは非常にゆっくりとカットオフします)。したがって、私は差分を使用して取得します: このプロットは、系列が静止している可能性があり、kpssテストとadfテストの適用がこの仮説をサポートしていることを示しています。 男性シリーズから始めて、以下の観察を行います。 ラグ1、4、5、26および27での経験的自己相関は、ゼロとは有意に異なります。 ACFはカットオフ(?)しますが、ラグ26と27での比較的大きなスパイクが心配です。 ラグ1と2での経験的部分自己相関のみが、ゼロと有意に異なります。 これらの観察のみに基づいて、差分時系列に純粋なARモデルまたはMAモデルを選択する必要がある場合、次のように主張してAR(2)モデルを選択する傾向があります。 ラグが2より大きい場合、部分的な自己相関はありません。 ACFは、27ラグ付近の領域を除いてカットオフします(これらの少数の外れ値だけが指標であり、混合ARMAモデルが適切であることを示しますか?) または以下のように主張することによりMA(1)モデル: PACFは明らかにカットオフ ラグには、マグニチュードの臨界値を超える1〜4のスパイクがあります。これは、点線領域の外にあることが許可されている3つのスパイク(60のうち95%)より1つ多い「唯一の」ものです。 ARIMA(1,1,1)モデルの特性はなく、p + q> 2のACFおよびPACFに基づいてARIMAモデルのpおよびqの次数を選択することは困難になります。 auto.arima()をAIC基準で使用すると(AICまたはAICCを使用する必要がありますか)、次の結果が得られます。 ドリフトのあるARIMA(2,1,1)。AIC = 280.2783 ドリフト付きARIMA(0,1,1)。AIC = 280.2784 ドリフト付きARIMA(2,1,0)。AIC = 281.437 検討した3つのモデルすべてがホワイトノイズの残差を示しています。 要約した質問は次のとおりです。 時系列のACFは、26ラグ前後の急上昇にもかかわらず、まだ切断されていると説明できますか? これらの外れ値は、混合ARMAモデルがより適切である可能性があることを示す指標ですか? どの情報基準を選択すればよいですか?AIC?AICC? AICが最も高い3つのモデルの残差はすべてホワイトノイズ動作を示しますが、AICの差はごくわずかです。パラメータが最も少ないもの、つまりARIMA(0,1,1)を使用する必要がありますか? 私の議論は一般的にもっともらしいですか? どちらのモデルが優れているかを判断する可能性はありますか?たとえば、AICが最も高い2つのモデルでバックテストを実行して予測の妥当性をテストする必要がありますか? 編集:ここに私のデータがあります: -5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370 0.5826312749 0.3869227286 …

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
人は、3つの中から最も類似する2つのアイテムを繰り返し選択します。アイテム間の知覚距離をモデル化/推定する方法は?
人には3つの項目(顔の写真など)が与えられ、3つの顔のうちどれが最も類似しているかを選択するよう求められます。これは、顔のさまざまな組み合わせで何度も繰り返されます。各顔は多くの組み合わせで発生する可能性があります。この種のデータを考慮して、各面間の距離が2D空間(または3D、4Dなど)に配置され、各面間の距離が参加者。 これをモデル化/推定するための良い(おそらく標準的な)方法は何でしょうか? モデル/論文および/またはソフトウェアパッケージへのポインタは高く評価されます。

1
時系列回帰の非表示モデルとステートレスモデル
これは非常に一般的な質問です。前の観測に基づいて次の観測を予測するモデルを構築したいとします(は実験的に最適化するためのパラメーターにすることができます)。したがって、基本的に、次の観測を予測するための入力フィーチャのスライディングウィンドウがあります。NNNNNN 隠れマルコフモデルのアプローチ、つまりBaum-Welchを使用してモデルを推定し、Viterbiが最後の観測に基づいて現在の状態を予測し、次に現在の状態に基づいて最も可能性の高い次の状態を予測し、次に次の状態を予測します。最も可能性の高い次の状態とHMMパラメーター(または次の観測の予測分布を見つけるなどのバリアント)を使用した観測。NNN または、SVM、線形回帰、スプライン、回帰ツリー、最近傍などのステートレスモデル(入力として以前の観測を取得できる)を使用して、はるかに単純なアプローチを使用することもできます。このようなモデルは、いくつかの予測誤差の最小化に基づいていますしたがって、概念的には、隠れた状態ベースのモデルよりもはるかに単純です。NNN 誰かがそのようなモデリングの選択に対処した彼女/彼の経験を共有できますか?HMMを支持して何を話し、回帰アプローチを支持して何を話しますか?直感的には、過剰適合を避けるために可能な限り単純なモデルを採用する必要があります。これは、ステートレスなアプローチを支持して話します...また、両方のアプローチがトレーニングのために同じ入力データを取得することを考慮する必要があります(これは、非表示の状態モデルのモデリングに追加のドメイン知識を組み込まない場合、たとえば特定の状態と遷移確率を修正します。非表示状態モデルのパフォーマンスが向上する理由はありません)。最後に、もちろん両方のアプローチを試して、検証セットで何がより効果的かを確認できますが、実際の経験に基づくいくつかのヒューリスティックも役立つかもしれません... 注:私にとっては、特定のイベントのみを予測することが重要です。私は、「平均的/頻繁な」イベントを予測するが、興味深いイベントはあまり予測しないモデルよりも、「興味深い/まれな」イベントをほとんど予測しないモデルを好みます。おそらくこれはモデリングの選択に影響を与えます。ありがとう。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
リフトチャートとゲインチャートは、従業員の離職モデルのコンテキストで何を述べているか
したがって、リフトチャートとゲインチャートを従業員の離職率モデル(SPSS ModelerでCHAIDを使用)に適用するため、チャートをさらに理解しようとしています。私のデータでは、これは自発的に退職する人数を予測することを意味します。 以下の参考文献を確認し、解釈に関する基本を説明します。x軸とy軸に何がプロットされているかと、探している理想的な曲線です。私は自分自身の利益を作成し、Excelでグラフを持ち上げる練習もしました。 しかし、これまでに見た例はすべてダイレクトメールキャンペーンに関するものです。これが私のデータにとって何を意味するのか知りたいです。ゲインチャートの場合、データの上位10%をサンプリングすると用語の40%を期待できるのに対し、データの上位60%をサンプリングすると用語の80%が得られるという意味ですか?(40%と60%が値であると想定してください)。もしそうなら、私のターンオーバーモデルのコンテキストでは本当にそれを理解できないので、私はそれからどのような意味を取り除くべきですか? 参照: データマイニングのリフト測定 リフトチャートとは http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html

1
言語モデリング:合計1をなぜそれほど重要なのですか?
スペル修正、機械翻訳、音声認識などの多くの自然言語処理アプリケーションでは、言語モデルを使用しています。言語モデルは通常、単語のシーケンス(n-gram)が大規模なコーパスで発生する頻度をカウントし、そのカウントを正規化して確率を作成することによって作成されます。目に見えないn-gramを説明するために、モデルで証明されているn-gramから確率質量の一部を取り、この質量を低次のn-gram(短い単語シーケンス)に分配する平滑化方法(ここにリストされているいくつかを参照)を使用します)バックオフ確率。 計算では分布を確率として維持する必要があるため、平滑化手法の多くは数学的に複雑になります(合計は1にする必要があります)。 この制約の理由は何ですか?他の種類のスコアではなく、厳密な確率を予測に使用する利点は何ですか? PSリンクに対応するリファレンスは、[Stanley F. Chen and Joshua Goodman(1998)、an Empirical Study of Smoothing Techniques for Language Modeling]]です。

4
ロジスティック回帰の柔軟なバージョン
私は、どちらかのグループ(70対10,000)のデータポイントの数に大きな違いがあるロジスティック回帰を適合させようとしています。私の統計学者の友人は、これはロジスティック回帰の既知の問題であり、そのような種類の数値ではデータをオーバーフィットし、基本的に機能しないことを教えてくれました。データをビニングしてモデルと比較すると、これが間違いなく事実であることは明らかです。 この種類のバイナリ応答データをフィッティングするためのより良い/より柔軟な方法を誰かが知っているのだろうか? (ちなみに私は統計家ではないので、気楽にやってください!)

2
二項回帰とモデリング戦略の議論
今日、私は二項/ロジスティック回帰について質問を受けました。これは、私の部門のグループが行ってコメントを求めている分析に基づいています。匿名性を保護するために以下の例を作成しましたが、彼らはその反応に熱心でした。 まず、分析は単純な1または0の二項応答(たとえば、ある繁殖シーズンから次の繁殖シーズンまでの生存率)で始まり、目標はこの応答をいくつかの共変量の関数としてモデル化することでした。 ただし、一部の共変量の複数の測定値は、一部の個人では利用可能でしたが、他の個人では利用できませんでした。たとえば、変数xが分娩中の代謝率の測定値であり、個体の子孫の数が異なると想像してください(変数xは、個体Aでは3回、個体Bでは1回だけ測定されました)。この不均衡は、研究者自身のサンプリング戦略によるものではなく、彼らがサンプリングしていた母集団の特徴を反映しています。一部の個体は他の個体より多くの子孫を持っています。 これらのイベントの間隔が非常に短いため、労働イベント間の2項の0 \ 1応答を測定することは不可能であったことも指摘しておきます。繰り返しになりますが、問題の種は繁殖期が短いが、シーズン中に複数の子孫を産むことができると想像してください。 研究者たちは、変数xの平均を1つの共変量として使用し、個人が出産した子孫の数を別の共変量として使用するモデルを実行することを選択しました。 今、私はいくつかの理由でこのアプローチに熱心ではありませんでした 1)xの平均を取ることは、xの個体内変動の情報を失うことを意味します。 2)平均はそれ自体が統計であるため、モデルに入れることにより、統計に関する統計を実行することになります。 3)モデルには個体の子孫の数が含まれますが、変数xの平均の計算にも使用されます。これは問題を引き起こす可能性があると思います。 それで、私の質問は、人々がこのタイプのデータをどのようにモデル化しようとするのでしょうか? 現時点では、おそらく、子孫が1人の個体と、子孫が2人の個体に対して別々のモデルを実行します。また、変数xの平均を使用せず、各出生の生データのみを使用しますが、これもはるかに良いと確信していません。 お時間をいただきありがとうございます (PS:長い質問であることをお詫びします。例が明確であることを願っています)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.