統計とビッグデータ r

4

私はベクトルを持っています x <- c(1,2,3,4,5,5,5,6,6,6,6, 7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7, 7,7,7,7,7,7,7,7,8,8,8,8,9,9,9,10) （私の実際のベクトルは> 10,000の長さです）、密度の90％が存在する間隔を見つけたいです。あるquantile(x, probs=c(0.05,0.95), type=5)最も適切か、他の方法はありますか？

9 r

1

可変数の評価を使用してRの評価者間の信頼性を計算していますか？

ウィキペディアでは、評価者間の信頼性を確認する1つの方法は、変量効果モデルを使用してクラス内相関を計算することです。クラス内相関の例では、 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} モデルから Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} 「Yここでijは jは番目 Iで観察番目のグループ、μはα、未観測全体平均でiは iがグループ内のすべての値で共有未観測ランダム効果であり、ε ijは未観測ノイズ項です」。特に私のデータでは、評価者がすべてのものを評価しておらず（ほとんどが20+を評価しています）、さまざまな回数（通常は3〜4）の評価が行われているため、これは特に魅力的なモデルです。質問0：その例の「グループi」（「グループi」）は、評価されているもののグループですか？質問＃1：評価者間の信頼性を求めている場合、評価者と評価対象の2つの項を持つ変量効果モデルは必要ありませんか？結局のところ、両方とも可能なバリエーションがあります。質問＃2：このモデルをRで最もよく表現するにはどうすればよいですか？ているかのように見えます。この問題は、見栄えの良い提案があります。 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 私は見てカップルの質問、およびLMEのための「ランダム」パラメータの構文は、私には不透明です。lmeのヘルプページを読みましたが、「ランダム」の説明は例がなければ理解できません。この質問は質問の長いリストにいくぶん似ていますが、これが最も近い質問です。ただし、ほとんどの場合、Rについては詳しく説明されていません。

9 r reliability random-effects-model agreement-statistics

1

RのACFプロットの破線

カウパートウェイトとメトカーフの『R入門時系列』という本を読みます。36ページでは、行はと述べています。行があるというRフォーラムをここで読みました。 ±1.96/ √− 1 / n ± 2 / n−−√−1/n±2/n-1/n \pm 2/\sqrt{n}± 1.96 / n−−√±1.96/n\pm 1.96/\sqrt{n} 私は次のコードを実行しました： b = c(3,1,4,1) acf(b) そして、行がように見えます。それで、明らかに本は間違っていますか？または、何が書かれているかを誤解していますか？著者は少し違うことについて話していますか？± 1.96 / 4–√±1.96/4\pm 1.96/\sqrt{4} *注意：1.96と2の細部の不一致には関心がありません。これは、実際の1.96 sdに対して2 sdの経験則を使用している作者にすぎないと思います。編集：私はこのシミュレーションを実行しました： acf1 = 0 acf2 = 0 acf3 = 0 for(i in 1:5000){ resids= runif(1000) residsacf = c(acf(resids,plot= FALSE)) acf1[i] …

9 r time-series

6

Rで変数をグループ化/標準化する方法は？

ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。私は精通してる機能は、スケールをベースRから再スケール ARMから。おそらく、最良の方法は、グループ化変数として使用する1つ以上の変数を指定して、applyのバリアントを使用することです。

9 r standardization centering

1

0または1のp値を解釈する方法は？

性別と学年の相互作用など、ANOVAの結果を実行しましたが、男子と女児のどの学年が異なるかを知りたいのですが、多くの場合、0と1の（調整された）p値を見つけました。正しくないようです... as.factor(gender) 1 16 16.2 2.6377 0.104396 as.factor(grade) 7 50077 7153.9 1165.4184 < 2.2e-16 *** as.factor(gender):as.factor(grade) 7 132 18.9 3.0795 0.003056 ** Residuals 7747 47555 6.1 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Tukey multiple comparisons of means 95% family-wise confidence level …

9 r

3

複数の分布の箱ひげ図？

Rの単一のグラフに20の分布を描画する必要があります。boxwex= 0.3を使用しても、通常のボックスプロット（20ボックス）では見栄えがよくありません（乱雑）。以下のように、中央値のドットとボックスの代わりにラインだけを使用して、20の分布に対して一種のボックスプロットをRでプロットする方法を教えてください。素敵な箱ひげ図を作成するRメソッドがあるかどうか、特に単一のグラフで複数の分布を表示したい場合も教えてください。 -----0----

9 r boxplot

1

rpart（）で分割数を選択する方法は？

に使用rpart.controlしてminsplit=2、rpart()関数から次の結果を得ました。データの過剰適合を回避するために、スプリット3またはスプリット7を使用する必要がありますか？スプリット7を使用すべきではありませんか？私にお知らせください。ツリー構築で実際に使用される変数： [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 3 0.158468 0.27281 0.060605 5 0.025035 4 0.130815 0.30120 0.058992 …

9 r cart rpart

2

Emacs Speaks Statistics（Rを使用）を学習するための適切な参照/アドバイスは何ですか？

私は数年前からRを使用していますが、常にTinn-R、JGR、最近ではR-StudioなどのGUIを使用しています。 R-Studioのインターフェイスは好きですが、グラフィックスが少ない/ない長いプログラムでは、Emacsのようなより基本的なテキストエディターが提供するショートカットを利用することで、より効率的にコーディングできると思います。 EmacsとESSプラグインをインストールしましたが、すべてが正常に機能しており、コードをいくつかテストしましたが、慣れるのに苦労しており、適切なリファレンスマニュアルが見つかりません。 Google検索では、主にプラグインのインストールと構成に焦点を当てたチュートリアルを含む、非常に日付の古いWebサイトがいくつか返されます。公式Webサイトのマニュアルは、私には少々密度が高すぎます。私は、Rに精通しているがEmacsに精通していない人のために設計された、比較的簡単な紹介（理想的にはスクリーンショットとホットキーのリストを含む）を探しています。はじめに参考文献やその他のヒントをいただければ幸いです。

9 r software

2

ペアの反復測定ANOVAまたは混合モデル？

血圧を測定する2つの方法を検討している臨床試験のデータを分析するように依頼されました。50の被験者からのデータがあり、各方法を使用してそれぞれ2〜57のメジャーがあります。どのように進めるのが最善かと思います。明らかに、血圧の測定値がペアになっている（2つの方法が同時に測定されている）ことと、時間変化する共変量（患者ごとに異なる数の観察が行われること）を考慮し、内部と内部の両方を考慮に入れるソリューションが必要です。患者の多様性。どういうわけかこれを繰り返し測定ANOVAに靴角掛けすることを考えていましたが、混合モデルのアプローチが必要かもしれないと思っています。役立つアドバイスをいただければ幸いです。私は完全なR初心者ですが、スキルを開発することに非常に興奮しており、私はスタタで適度な経験を持っているので、いつでもそれに頼ることができます。

9 r anova mixed-model stata

1

パネル研究からの時系列の欠落カウントデータの複数の代入

私は、パネルデータスタディから欠落しているデータの帰属に対処する問題に取り組んでいます（「パネルデータスタディ」を正しく使用しているかどうかはわかりません-今日学んだとおりです）。2003年の総死亡数データがあります。 2009年まで、8つの異なる地区と4つの年齢グループのすべての月（男性と女性）。データフレームは次のようになります。 District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ …

9 r time-series panel-data data-imputation

2

RがQQプロットの理論的な変位値に対して標準化された残差をプロットするのはなぜですか？

Rで、デフォルトの設定でqqplot(linear model)Y軸の標準化残差を使用するのはなぜですか？Rが「通常の」残差を使用しないのはなぜですか？

9 r regression linear-model residuals qq-plot

2

Rを使用したTobitモデル

パッケージAERを備えたtobitモデルを使用して、（マニュアルと本にRを適用した計量経済学以外の）良いアプリケーションと例をどこで見つけるか知っている人はいますか？編集する（潜在変数y *ではなく）yの周辺効果を計算するコマンドを探しています。のようです、 std.normal累積分布関数です。しかし、Rでこれらの効果をどのように計算できますか？ϕ(xβ/σ)βϕ(xβ/σ)β\phi(x\beta/\sigma)\betaϕϕ\phi

9 r tobit-regression

2

Rでのノイズを伴うアプリケーションの密度ベースの空間クラスタリング（DBSCAN）クラスタリング

この質問は「Rでの空間データのクラスタリング」から始まり、現在はDBSCANの質問に移動しています。最初の質問への回答が示唆したように、私はDBSCANに関する情報を検索し、いくつかのドキュメントを読みました。新しい質問が発生しました。 DBSCANにはいくつかのパラメータが必要です。そのうちの1つは「距離」です。私のデータは3次元、経度、緯度、および温度なので、どの「距離」を使用する必要がありますか？どの距離がその距離に関連していますか？温度だと思います。Rでそのような最小距離を見つけるにはどうすればよいですか？別のパラメーターは、クラスターを形成するために必要なポイントの最小数です。その数を見つける方法はありますか？残念ながら見つかりませんでした。 Googleで検索すると、私のようなデータセットでdbscanを使用するためのRの例が見つかりませんでした。そのような種類のWebサイトを知っていますか？だから私は読んで私のケースに適応しようとすることができます。最後の質問は、DBSCANを使用した最初のR試行（前の質問に対する適切な回答なし）がメモリ問題を引き起こしたということです。Rは、ベクトルを割り当てることができないと言います。有効ではないSSTポイントを削除する場合、約300000行x 3列（緯度、経度、温度）で終わる779191ポイントの4 km間隔のグリッドから始めます。このメモリの問題に対処するためのヒント。それは私のコンピューターに依存していますか、それともDBSCAN自体に依存していますか？長くて退屈なメッセージを読むのを辛抱強く、そしてあなたの助けをありがとう。

9 r clustering spatial

3

Rのデータフレームの列名を変更する方法 [閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 6年前休業。 names(mydat)[c(name)]<-c("newname") このことから、データフレームmydatの列/変数名「name」が「newname」に置き換えられていることがわかります。私の質問は、これをループで実行して、次のようなことをしたいかどうかです： newname1 newname2 newname3 newname4など、どうすればよいですか？これは何をしたのか、それはうまくいきませんでした： for(i in 1:4){ names(mydat)[c(name)]<-c("newname"i) } これをコーディングする方法はありますか？助けてくれたかもしれないすべての人に感謝します。オウスイサク

9 r

1

Rでは、標準正規分布表の累積分布関数をどのように参照/参照するのですか？

ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 Rにはこの機能が組み込まれていると思います。どうすれば参照できますか？

9 r normal-distribution

タグ付けされた質問 「r」

タグ付けされた質問「r」