タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
同じデータセットで2つの線形モデルを実行することは許容されますか?
複数のグループ(自然なグループが事前に定義されたもの)の線形回帰の場合、次の2つの質問に答えるために、同じデータセットで2つの異なるモデルを実行することは許容できますか? 各グループには非ゼロの勾配と非ゼロの切片がありますか?グループ回帰内の各パラメーターは何ですか? グループメンバーシップに関係なく、非ゼロの傾向と非ゼロの切片はありますか?グループ全体の回帰のパラメーターは何ですか? Rでは、最初のモデルはでありlm(y ~ group + x:group - 1)、推定された係数は各グループの切片と勾配として直接解釈できます。2番目のモデルはですlm(y ~ x + 1)。 代替案はlm(y ~ x + group + x:group + 1)、であり、これにより、係数の複雑な要約表が得られ、グループ内の勾配と切片は、いくつかの参照からの勾配と切片の差から計算する必要があります。また、最後のグループの差異(場合によっては)のp値を取得するために、グループを並べ替えてモデルをもう一度実行する必要があります。 これは2つの別個のモデルを使用して、推論に何らかの悪影響を及ぼしますか、またはこの標準的な方法に悪影響を及ぼしますか? これをコンテキストに入れるために、xを薬物の投与量と見なし、グループを異なる人種と見なします。医師の特定の人種、または薬剤が効く人種の用量反応関係を知ることは興味深いかもしれませんが、(ヒト)母集団全体の用量反応関係を知ることも興味深い場合があります公衆衛生担当官の人種に関係なく。これは、グループ内とグループ全体の両方の回帰に個別に関心を持つ方法の単なる例です。用量反応関係が線形であるべきかどうかは重要ではありません。

4
Rのロジスティック回帰モデルに適合しない場合のピアソンの検定統計量を計算するにはどうすればよいですか?
尤度比(別名逸脱)統計と適合度(または適合度)検定は、Rのロジスティック回帰モデル(関数を使用して適合)を取得するのはかなり簡単です。ただし、いくつかのセル数が十分に少なくなり、テストの信頼性が低下します。適合度不足の尤度比検定の信頼性を検証する1つの方法は、その検定統計量とP値をピアソンのカイ二乗(または\ chi ^ 2)適合度検定のそれらと比較することです。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 glmオブジェクトもそのsummary()メソッドも、ピアソンのカイ二乗検定の適合性の検定統計量を報告しません。私の検索では、思いついたのはchisq.test()(statsパッケージ内の)関数だけです。そのドキュメントには、「chisq.testカイ2乗分割表テストと適合度テストを実行する」と記載されています。ただし、そのようなテストを実行する方法についてのドキュメントはまばらです。 場合はx一つの行または列を持つ行列である場合、またはxベクターであり、yその後、与えられていない適合度(テストが行われるx一次元分割表として扱われます)。のエントリは、x負でない整数でなければなりません。この場合、テストされる仮説は、母集団の確率がの確率と等しいか、与えられないp場合pはすべて等しいかどうかです。 の引数にオブジェクトのyコンポーネントを使用できると思います。ただし、エラーが発生するため、の引数にオブジェクトのコンポーネントを使用できません: " "glmxchisq.testfitted.valuesglmpchisq.testprobabilities must sum to 1. (Rで)手動でステップを実行することなく、少なくともピアソンの検定の統計を計算して適合性の欠如を調べるにはどうすればよいですか?χ2χ2\chi^2

1
Rのフィッシャーテスト
次のデータセットがあるとします。 Men Women Dieting 10 30 Non-dieting 5 60 私がフィッシャーの正確検定をRで実行する場合、何をalternative = greater(またはそれ以下)意味しますか?例えば: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") 私が得るp-value = 0.01588とodds ratio = 3.943534。また、次のように分割表の行を反転すると、 mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") その後、私が得るp-value = 0.9967とodds ratio = 0.2535796。しかし、代替引数なしで2つの分割表(つまり、fisher.test(mat))を実行すると、が得られますp-value = 0.02063。 その理由を教えていただけませんか。 また、上記の場合の帰無仮説と対立仮説は何ですか? 次のような分割表でフィッシャーテストを実行できますか? mat = matrix(c(5000,10000,69999,39999), 2, 2) PS:私は統計学者ではありません。私はあなたの助け(簡単な英語での回答)が高く評価されるように統計を学ぼうとしています。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
ロジスティック成長データの周りのエラーの分布はどうですか?
生態学では、ロジスティック成長方程式をよく使用します。 Nt=KN0ertK+N0ert−1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} または Nt=KN0N0+(K−N0)e−rtNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} ここで、は運搬能力(到達した最大密度)、は初期密度、は成長率、は初期からの時間です。KKKN0N0N_0rrrttt の値には、ソフトな上限と下限、強い下限があり。NtNtN_t(K)(K)(K)(N0)(N0)(N_0)000 さらに、私の特定のコンテキストでは、測定は、光学密度または蛍光を使用して行われます。どちらも理論上の最大値、つまり強い上限があります。NtNtN_t したがって、周りのエラーは、おそらく有界分布によって最もよく説明されます。NtNtN_t 値が小さい場合、分布にはおそらく強い正のスキューがあり、値がKに近づくと、分布にはおそらく強い負のスキューがあります。したがって、分布にはおそらくにリンクできる形状パラメーターがあります。NtNtN_tNtNtN_tNtNtN_t 分散もとともに増加する可能性があります。NtNtN_t これはグラフィカルな例です と K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 これはrで生成できます library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 周りの理論的な誤差分布はどうなりますか(モデルと提供された経験的情報の両方を考慮して)?NtNtN_t この分布のパラメーターはまたは時間の値にどのように関連していますか(パラメーターを使用していた場合、モードを直接関連付けることができません(例:logis normal))。NtNtN_tNtNtN_t この分布には、実装されている密度関数がありますか?RRR これまでに探索された方向: 周りの正規性を仮定します(推定の超過につながります)NtNtN_tKKK 付近のロジット正規分布、ただし形状パラメーターのアルファとベータのフィッティングは困難Nt/maxNt/maxN_t/max ロジック周辺の正規分布Nt/maxNt/maxN_t/max
10 r  distributions  pdf  ecology 

2
Rで多変量の結果をシミュレートする方法は?
ほとんどの状況では、ような1つの結果/応答変数のみを扱います。ただし、一部のシナリオ、特に臨床データでは、結果変数は高次元/多変量になる可能性があります。など、含ま、と変数を、これらの結果は、すべて相関しています。治療を受けることを表す場合(はい/いいえ)、Rでこのタイプのデータをどのようにシミュレートできますか?Y = β X + ε Y Y 1 Y 2 Y 3、Xy= a + b x + ϵy=a+bバツ+εy = a + bx +\epsilonY =βバツ + ϵY=βバツ+ε\mathsf{Y} = \beta{x} + \mathsf{\epsilon}YY\mathsf{Y}Y1Y1Y_1Y2Y2Y_2Y3Y3Y_3バツバツx 実際の例では、各患者は2種類のバイパス手術のいずれかを受け取り、研究者はバイパス手術後に痛み、腫れ、疲労などについて各患者を測定します(各症状の発生率は0〜10)。私は結果(症状の重症度)が多変量正常であると「想定」しています。この実例が私の質問を明確にしてくれることを願っています。よろしくお願いします。

3
Rを使用して相関が所定の値に等しいという仮説をテストする方法は?
2つのベクトルの相関が特定の数値、たとえば0.75に等しいという仮説をテストする関数はありますか?cor.testを使用すると、cor = 0をテストでき、0.75が信頼区間内にあるかどうかを確認できます。しかし、cor = 0.75のp値を計算する関数はありますか? x <- rnorm(10) y <- x+rnorm(10) cor.test(x, y)
10 r  correlation 

3
Rの因子による線形回帰
Rで因子がどのように機能するかを理解しようとしています。Rのサンプルデータを使用して回帰を実行するとします。 > data(CO2) > colnames(CO2) [1] "Plant" "Type" "Treatment" "conc" "uptake" > levels(CO2$Type) [1] "Quebec" "Mississippi" > levels(CO2$Treatment) [1] "nonchilled" "chilled" > lm(uptake ~ Type + Treatment, data = CO2) Call: lm(formula = uptake ~ Type + Treatment, data = CO2) Coefficients: (Intercept) TypeMississippi Treatmentchilled 36.97 -12.66 -6.86 私はそれを理解しTypeMississippi、Treatmentchilledブール値として扱われます。各行の最初の取り込みは36.97で12.66あり6.86、それがミシシッピ型であるかどうか、および冷却されているかどうかを差し引きます。私はこのようなものを理解するのに苦労しています: > …

2
ホッケー選手が記録した総キャリア目標を予測するときにポアソン回帰でオフセットを使用するかどうか
オフセットを使用するかどうかについて質問があります。ホッケーのゴールの(全体的な)数を記述したい非常に簡単なモデルを想定します。つまり、ゴール、プレイしたゲームの数、およびダミー変数「ストライカー」があり、プレーヤーがストライカーの場合は1、それ以外の場合は0になります。次のモデルのどれが正しく指定されていますか? Goals = games + striker、または ゴール=オフセット(ゲーム)+ストライカー 繰り返しになりますが、目標は全体的な目標であり、ゲームの数は1人のプレーヤーの全体的なゲームです。たとえば、100ゲームで50ゴールを獲得したプレーヤーと、50ゲームで20ゴールを獲得した別のプレーヤーがいる場合などです。 目標の数を見積もるにはどうすればよいですか?ここでオフセットを使用する必要がありますか? 参照: 一般にポアソン回帰でオフセットを使用する場合について説明しているこの前の質問を参照してください。

2
線形モデルの空間共分散をどのように説明できますか?
バックグラウンド 私は、2つのブロックのそれぞれに4つの処理レベルと6つの複製があるフィールド調査のデータを持っています。(4x6x2 = 48観測) ブロックは約1マイル離れており、ブロック内には、42のグリッド、2m x 4mの区画、および1mの幅の歩道があります。私の研究では、各ブロックで24のプロットのみを使用しました。 空間共分散の評価を評価したいと思います。 以下は、空間共分散を考慮しない、単一ブロックのデータを使用した分析の例です。データセットで、plotはプロットID、xはy各プロットのx位置とy位置で、プロット1は0を中心とし、0 levelは処理レベルでresponseあり、は応答変数です。 layout <- structure(list(plot = c(1L, 3L, 5L, 7L, 8L, 11L, 12L, 15L, 16L, 17L, 18L, 22L, 23L, 26L, 28L, 30L, 31L, 32L, 35L, 36L, 37L, 39L, 40L, 42L), level = c(0L, 10L, 1L, 4L, 10L, 0L, 4L, 10L, 0L, 4L, …

4
10D MCMCチェーンがある場合、Rでその事後モードをどのように決定できますか?
質問: 10次​​元のMCMCチェーンを使用して、ドローのマトリックスを渡す準備ができているとしましょう。特に複数のモードに関心があります。 バックグラウンド:私自身は計算に精通している統計学者だと思いますが、同僚がこの質問をしたとき、私は合理的な答えを出すことができなかったことを恥ずかしく思いました。主な懸念事項は、複数のモードが表示される可能性があることですが、10次元のうち少なくとも8次元程度が考慮される場合に限られます。私の最初の考えは、カーネル密度推定を使用することでしたが、Rを検索しても、3次元を超える問題については何も約束されませんでした。同僚は10次元のアドホックビニング戦略を提案し、最大値を検索しましたが、帯域幅が重大なスパース性の問題を引き起こすか、複数のモードを識別するための解像度が不足する可能性があるのではないかと心配しています。とは言っても、自動化された帯域幅の提案、10カーネル密度推定器へのリンクなど、知っていることなら何でも喜んで受け入れます。 懸念事項: ディストリビューションはかなり歪んでいると思われます。したがって、事後平均ではなく事後モードを識別したいとします。 いくつかの事後モードが存在する可能性があることを懸念しています。 可能であれば、Rベースの提案をお勧めします。しかし、実装するのが信じられないほど難しくない限り、どのようなアルゴリズムでも機能します。最初から自動化された帯域幅選択を備えたNdカーネル密度推定器を実装したくないと思います。

5
Rでの効果の測定のために2乗したオメガ?
私が読んでいる統計の本は、私の実験の効果を測定するためにオメガ二乗を推奨しています。私は、分割プロット計画(被験者内と被験者間設計の混合)を使用して、被験者内係数がp <0.001およびF = 17で統計的に有意であることをすでに証明しています。 今、私は違いがどれほど大きいかを探しています... R(またはpython?私は知っています...夢を見ることができます;)のどこかにオメガの2乗の実装がありますRに関連するものをインターネットで検索すると痛み*は、私はCでものを見つけるために管理する方法がわかりません ありがとう!

1
Rでのロジスティックモデルの出力
次のタイプのロジスティックモデルを解釈しようとしています。 mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) predict(mdl)各データポイントの成功の予想オッズの出力ですか?すべてのデータポイントではなく、モデルの各因子レベルのオッズを集計する簡単な方法はありますか?

2
時系列(R)の構造的破損を検出および定量化する方法
バックグラウンド だから私が持っているかもしれない理解のレベルを測るためのいくつかの背景。現在修士論文を完成させていますが、統計はほとんど無視されていますが、私は基本的には理解しています。私の現在の質問は、私が実際に何ができる/すべきか疑問に思っています。オンラインや文学でますます読むことは逆効果のようです。 私は何を達成しようとしていますか? したがって、私が入社した論文では、私が回答しようとしている一般的な質問は、本質的に、予測プロセスが特定のシステムの実装によってどのように影響されるかです(予測プロセスに使用されるデータに影響します)。 これで望ましい結果は、以下の理解です。 目立った変化はありますか?(例えば、統計的証明) 変化はどのくらいですか?(平均と分散) この予測プロセスで重要な要因(また、要因の影響が休憩前>休憩後にどのように変化するか) 1と2に答えるために、時系列オブジェクトの形式で履歴データを取得しました(この段階では、それ以上ですが無関係です)。私が使用しているソフトウェアはRです。 データ データには、毎日(2.5年間)の加重スコアが含まれ、予測プロセスのパフォーマンスの悪さ(実際のイベントからの逸脱)を示します。この1つの時系列オブジェクトには、1時間前からこれらの2.5年間のイベントの実際の発生(1時間の間隔)までに発生した予測の加重スコアが含まれます(したがって、各日には、この間隔の加重スコアが1つあります)。同様に、他の間隔(1〜2、2〜3時間など)に対して構築された複数の時系列があります。 myts1 <- structure(c(412.028462047, 468.938224875, 372.353242472, 662.26844965, 526.872020535, 396.434818388, 515.597528222, 536.940884418, 642.878650146, 458.935314286, 544.096691918, 544.378838523, 486.854043968, 478.952935122, 533.171083451, 507.543369365, 475.992539251, 411.626822157, 574.256785085, 489.424743512, 558.03917366, 488.892234577, 1081.570101272, 488.410996801, 420.058151274, 548.43547725, 759.563191992, 699.857042552, 505.546581256, 2399.735167563, 959.058553387, 565.776425823, 794.327364085, 1060.096712241, 636.011672603, 592.842508666, 643.576323635, …

3
尤度比とWald検定
私が読んでいることから、とりわけUCLA統計コンサルティンググループの尤度比テストとウォルドテストのサイトでは、2つのglmモデルがデータセットの適合度に有意差を示すかどうかをテストすることは非常に似ています(言い訳少しずれているかもしれません)。本質的に、2つのモデルを比較して、2番目のモデルが最初のモデルよりもはるかに良い適合を示しているか、モデル間に違いがないかをテストできます。 そのため、LRテストとWaldテストは、同じ回帰モデルに対して同じ大まかなp値を示すはずです。少なくとも同じ結論が出るはずです。 今、私はRで同じモデルに対して両方のテストを行い、大きく異なる結果を得ました。これは、1つのモデルに対するRの結果です。 > lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson")) Likelihood ratio test Model 1: data$y ~ 1 Model 2: data$y ~ data$site_name #Df LogLik Df Chisq Pr(>Chisq) 1 2 -89.808 2 9 -31.625 7 116.37 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.