タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

4
Rでのlmer / lme混合モデルの仮定の確認
3つの異なるタスクで30人の男性と30人の女性をテストする繰り返しデザインを実行しました。男性と女性の行動がどのように異なり、それがタスクにどのように依存するかを理解したいと思います。これを調査するためにlmerとlme4の両方のパッケージを使用しましたが、いずれかの方法の仮定を確認しようとしています。私が実行するコードは lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 相互作用のない単純なモデルと比較し、anovaを実行して、相互作用が最良のモデルであるかどうかを確認しました。 lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) Q1:これらのカテゴリカル予測子を線形混合モデルで使用しても大丈夫ですか? Q2:結果変数(「振る舞い」)がそれ自体(性別/タスク間)自体に正規分布する必要はないことを正しく理解していますか? Q3:分散の均一性を確認するにはどうすればよいですか?単純な線形モデルでは、を使用しますplot(LM$fitted.values,rstandard(LM))。plot(reside(lm.base1))十分に使用していますか? Q4:正常性を確認するには、次のコードを使用しますか? hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

2
R prcompの結果を予測に使用する方法は?
800個のオブジェクトを持つdata.frameがあります。40個の変数を使用し、主成分分析を使用して、予測の結果を改善したいと考えています(これまでに15個の変数を選択してSupport Vector Machineで最適に機能します)。 prcompを使用すると予測を改善できることは理解していますが、prcomp関数の結果の使用方法はわかりません。 私は結果を得ます: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 1.2542 1.1899 1.166 1.1249 1.1082 1.0888 1.0863 1.0805 1.0679 1.0568 1.0520 Proportion of Variance 0.0742 0.0624 …
25 r  pca 

1
「カーネル密度推定」は、何の畳み込みですか?
カーネル密度推定の理解を深めようとしています。 ウィキペディアの定義を使用:https : //en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) レッツテイク矩形与える関数であるた場合間にあるととさもなければ、及び 1であると(ウィンドウサイズ)。K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 密度は2つの関数の畳み込みであることは理解していますが、これら2つの関数を定義する方法がわかりません。それらの1つは(おそらく)データの関数であり、Rのすべてのポイントに対して、その場所にあるデータポイントの数(ほとんど)を示します。そして、他の関数は、おそらくウィンドウサイズと組み合わされたカーネル関数の何らかの修正であるはずです。しかし、それをどのように定義するのか分かりません。000 助言がありますか? Bellowは、(私が疑う)上記で定義した設定を(2つのガウスと混合で)複製するRコードの例であり、その上で、畳み込まれる関数が疑わしいという「証明」を見たい。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

1
Calinski&Harabasz(CH)基準の許容値は何ですか?
Rとkmlパッケージを使用して縦断データをクラスター化しようとするデータ分析を行いました。私のデータには、約400の個別の軌跡が含まれています(この論文で呼ばれています)。次の図に私の結果を見ることができます。 対応する論文の 2.2章「最適なクラスター数の選択」を読んだ後、答えが得られませんでした。3つのクラスターを使用することをお勧めしますが、結果は80のCHでまだOKです。実際、CH値が何を表すかさえわかりません。 だから私の質問、Calinski&Harabasz(CH)基準の許容値は何ですか?

1
RのGLM後の因子のレベルの比較
ここに私の状況についての少しの背景があります。私のデータは、捕食者が首尾よく食べた獲物の数を参照しています。各トライアルでは獲物の数が限られているため(25個が利用可能)、使用可能な獲物の数を表す「サンプル」列(各トライアルでは25個)と、成功の数である「カウント」何匹の獲物が食べられたか)。プロポーションデータに関するRブック(578ページ)の例に基づいて分析を行いました。説明変数は体温(私は因子として扱った4つのレベル)、および捕食者の性別(明らかに、男性または女性)です。だから私はこのモデルになります: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) Analysis of Devianceテーブルを取得した後、温度と性別(相互作用ではない)が獲物の消費に大きな影響を与えることがわかりました。さて、私の問題:どの温度が異なるかを知る必要があります。つまり、4つの温度を互いに比較する必要があります。線形モデルがあれば、TukeyHSD関数を使用しますが、GLMを使用しているため、使用できません。パッケージMASSを調べて、コントラストマトリックスを設定しようとしましたが、何らかの理由で機能しません。提案や参考文献はありますか? モデルを明確にするのに役立つ場合は、モデルから取得した要約を次に示します... y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

2
データがRのポアソン分布に従うかどうかを知る方法は?
私は学部生で、確率クラスのプロジェクトを持っています。基本的に、私は一連の年の間私の国に影響を与えたハリケーンに関するデータセットを持っています。 私の確率ブック(Rの確率と統計)には、データがポアソン分布に従うかどうかを確認する方法の(完全ではない)例があり、これらの3つの基準が守られていることを証明しようとします:(私の本120(基準)122-123例) 1-重複しない間隔での結果の数は独立しています。つまり、時間間隔(0、t]の結果の数は、時間間隔(t、t + h]、h> 0の結果の数とは無関係です。 2-十分に短い間隔での2つ以上の結果の確率は実質的にゼロです。つまり、hが十分に小さい場合、間隔(t、t + h)で2つ以上の結果を得る確率は、同じ時間間隔で1つまたはゼロの結果を得る確率と比較して無視できます。 3-十分に短い間隔または小さな領域での正確に1つの結果の確率は、間隔または領域の長さに比例します。言い換えると、長さhの区間における1つの結果の確率はlambda * hです。 ただし、基準3は「演習」として残されています。 A-誰かが私のデータセットがポアソン分布に従うかどうかを確認するためのより「簡単な」方法があるかどうか教えてもらえますか? B-誰かが私に基準1と3をある種の例で説明してもらえますか(Rの場合は素晴らしい)。 ありがとう! 注:長い投稿で申し訳ありません。また、データを変換して、次のようなテーブルを作成する必要があります。 number of hurricanes | 0 | 1 | 2 etc. ----------------------------------------- total years that have | | | that number of hurricanes | | |

3
Rは実動(デプロイ済み)コードに対して実行可能か
GoogleやFacebookなど、Rを研究に使用している他の多くの企業に関する記事を多数読んでいます。私が読んだもう1つのシナリオは、Rを使用して分析ソリューションのプロトタイプを作成し、別の言語で再実装する企業です。 実際の生産分析コードにRを使用している企業に関する文献を探しています。ユースケースは、リモートサーバーで実行されたRスクリプトから応答を取得するWebページを介してユーザーが対話する推奨システムです。そのようなレポートを見つけるのに苦労しているという事実は、それが望ましくないのではないかと思うようになります。もしそうなら、なぜですか?
25 r  references 

3
Rで時系列の滑らかさを測定する方法は?
Rの時系列の滑らかさを測定する良い方法はありますか?例えば、 -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 よりもはるかに滑らかです -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 それらは同じ平均と標準偏差を持ちますが。時系列にわたってスムーズなスコアを提供する機能があれば、それはクールです。
25 r  time-series 

3
ポアソン回帰からの残差対適合値のプロットの解釈
RのGLM(ポアソン回帰)でデータを近似しようとしています。残差対近似値をプロットすると、プロットは複数の(わずかに凹状の曲線でほぼ線形の) "線"を作成しました。これは何を意味するのでしょうか? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
分位回帰にはどのような診断プロットが存在しますか?
OLSに関する私の質問に続いて、私は疑問に思う:分位回帰にはどのような診断プロットが存在するのか?(そしてそれらのR実装はありますか?) 簡単なグーグル検索で、すでにワームのプロット(これまで聞いたことがない)を思い付きました。(それらのうちのどれかが、分位点回帰のために移植されたOLSからのものですか?)

6
Rを使用した統計のリファレンスブック–存在し、何を含めるべきですか?
バックグラウンド これについては多くの議論があるので、StackExchangeの以前のトレッドから、そして猛烈にグーグルで答えを見つけることができると思いました。Rで(バイオ)統計のリファレンスブックを1つだけ見つけようとして半日使った後、私はまったく混乱し、あきらめなければなりませんでした。たぶん、無料の資料を組み合わせると、現時点で購入できるどの本よりも優れているかもしれません。調べてみましょう。 インターネットにはR言語の優れた無料の文献がたくさんあります。そのため、ほとんどの場合オフィスの装飾として使用される平凡な本にお金を払っても意味がありません。Rのホームサイトには、Rに関連する書籍が一覧表示されており、多くの書籍があります。より正確に言うと、115。そのうちの1つだけが「スタンドアロン統計リファレンスブック」という言葉で宣伝されています。現在8歳であり、古い可能性があります。Sを使用したModern Applied Statisticsの第4版はさらに古いです。R Bookは、参照が不足しているため、コードの形式が適切でなく、仕上がりが粗末であるため、あまりにも基本的でお勧めできません。 しかし、私は1冊の本を探しています。これは、実用的な統計(何よりもまず)とR(二次)のスタンドアロン参照として使用できます。本は私の本棚に置いて、本棚のほこりの代わりに注釈、コーヒーの染み、脂っこい指紋を集めます。これは、これまで使用してきた無料のpdfのコレクションを置き換えるものであり、Rに優れた参照ライブラリが付属していることを忘れないでください。“ 適切なアプローチは何ですか?」、「なぜですか?「技術的には、どのように機能しますか?」は、「Rでそれを行う方法」よりも多くの難問です。 私は生態学者なので、生物統計学への応用にほとんど興味があります。しかし、これらのことはしばしば結びついているため、学際的な一般的な参考文献は私にとって最も価値があるでしょう。 タスク そのような本が存在する場合(疑わしい)、本の名前(回答ごとに1つのみ)と、その本のトピックのリファレンスブックとして指定する理由を説明する本の短いレビューを提供してください。この質問は既存のものとそれほど違わないので、答えにこのトレッドを使用してください。また、理想的な参考書の機能としてそれらをリストできるように、本の欠陥をリストすることもできます。 私の質問は、Rの統計(ほとんどの種類)のリファレンスブックには何を含めるべきですか? いくつかの最初の考えは、次の一般的な機能です(更新してください)。 レンガのように厚い 簡潔だが理解しやすい 数字で埋める(提供されたRコード付き) テキストから最も重要な詳細を説明するわかりやすい表と図 最も重要な方程式を含む統計/方法に関するわかりやすい説明テキスト。 各アプローチの良い例(Rコードを使用) 広範な最新の参照リスト タイプミスの最小数 目次 私は統計学者ではないので、質問に答えるためにこの(存在しない?)本が必要になるので、内容について書くのは難しいです。のでR帳がはっきりRと統計のための参考書になろうとするが、しばしば批判されて、私は、スタンドアロンR統計参考書の目次するための出発点として、本から目次をコピーしました。追加タスク:目次に追加、提案、削除などを提供してください。 入門 R言語の要点 データ入力 データフレーム グラフィックス テーブル 数学 古典的なテスト 統計モデリング 回帰 分散分析 共分散分析 一般化線形モデル カウントデータ テーブル内のデータをカウントする 割合データ バイナリ応答変数 一般化された加算モデル 混合効果モデル 非線形回帰 ツリーモデル 時系列分析 多変量統計 空間統計 生存分析 シミュレーションモデル グラフィックスの外観を変更する …
25 r  references 

6
分布を比較するための優れたデータ視覚化技術とは何ですか?
私は博士論文を書いていますが、分布を比較するためにボックスプロットに過度に依存していることに気付きました。このタスクを達成するために他にどの方法が好きですか? また、データの視覚化に関するさまざまなアイデアを取り入れることができるRギャラリーとして、他のリソースを知っているかどうかを尋ねたいと思います。

4
Ziliak(2011)は、p値の使用に反対し、いくつかの代替案に言及しています。彼らは何ですか?
「Matrixx v。SiracusanoおよびStudent v。Fisher 統計的有意性」(DOI:10.1111 / j.1740-9713.2011.00511.x)と呼ばれる、統計的推論のためにp値に依存するデメリットを議論する最近の記事では、 Stephen T. Ziliakは、p値の使用に反対しています。最後の段落で彼は言う: データは、私たちがすでに知っていることの1つであり、確かです。私たちが実際に知りたいのは、まったく異なるものです。データが与えられた場合、仮説が真である(または少なくとも実用的に有用である)確率です。入手可能な証拠があれば、2つの薬物が異なる確率、およびその程度を知りたいと思います。転置された条件の誤fall、フィッシャーが陥ったtrapに基づいた有意性テストは、その確率を教えてくれません。パワー関数、予想損失関数、およびスチューデントとジェフリーズから派生した多くの意思決定理論およびベイジアン手法は、現在広く利用可能でオンラインで無料です。 べき関数、予想損失関数、および「その他の決定理論およびベイズ法」とは何ですか?これらの方法は広く使用されていますか?Rで利用できますか?これらの新しい推奨方法はどのように実装されますか?たとえば、これらの方法を使用して、従来の2標本のt検定とp値を使用するデータセットで仮説をテストする方法を教えてください。

2
MLEでRのnlm関数を使用すべきでないのはいつですか?
最尤推定にRのnlmを使用することを提案するいくつかのガイドに出くわしました。ただし、それらのいずれも(Rのドキュメントを含む)、関数を使用するか使用しないかの理論的なガイダンスを提供しません。 私が知る限り、nlmは単にNewtonの方法に沿って勾配降下を行っています。このアプローチを使用することが合理的である場合の原則はありますか?どのような選択肢がありますか?また、nlmに渡すことができる配列などのサイズに制限はありますか?

2
Rの尤度比検定
次のように、いくつかの独立変数に対して単変量ロジスティック回帰を行うと仮定します。 mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) このコマンドにより、モデルがnullモデルよりも優れているかどうかを確認するために、モデルの比較(尤度比検定)を行いました。 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 次に、すべての変数を含む別のモデルを作成しました mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) 変数が多変量モデルで統計的に有意であるかどうかを確認するために、lrtest次のコマンドを使用しましたepicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically significant after …
25 r  logistic  diagnostic 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.