統計とビッグデータ r

1

次plm()の形式の固定効果モデルを推定するために使用しています y ~ x + time + time:fixed_trait where fixed_traitは、個人間で異なる変数ですが、個人内では一定です。相互作用の点timeでは、fixed_trait作用可能にすることであるfixed_trait時間にわたって変化するが。（私はここで固定効果に関するポールアリソンの最近の小冊子から作業をしています。引用を追加しました。） plm()そのようなモデルの係数と標準誤差の推定に問題はありません。しかしsummary.plm()、これらのモデルのR ^ 2を計算することはできません。これは私が修正したい問題です。最小限の例を次に示します。 library(plm) tmp <- data.frame(ID=rep(1:3, 2), year=rep(0:1, each=3), y=rnorm(6), const=rep(1:3, 2)) fe1 <- plm(y ~ year, index=c('ID', 'year'), data=tmp) fe2 <- plm(y ~ year + year:const, index=c('ID', 'year'), data=tmp) summary(fe1) # works fine summary(fe2) # Error …

16 r

1

縦カウントデータの分析方法：GLMMでの時間的自己相関の説明

統計の達人とRプログラミングウィザードの皆さん、私は、動物の捕獲物を環境条件とその日の関数としてモデリングすることに興味があります。別の研究の一環として、私は3年間で約160日間のキャプチャのカウントを持っています。これらの各日には、気温、降雨、風速、相対湿度などがあります。データは同じ5つのプロットから繰り返し収集されたため、プロットをランダム効果として使用します。私の理解では、nlmeは残差の時間的自己相関を簡単に説明できますが、lme4（自己相関を処理できない？）のような非ガウスリンク関数を処理しません。現在、log（count）でRのnlmeパッケージを使用するとうまくいくと思います。だから今の私の解決策は次のようなものを実行することです： m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random = ~1|plot, correlation = corARMA(p = 1, q = 1, form = ~DOY|plot), data = Data) ここで、DOYは年間通算日です。最終モデルにはより多くの相互作用があるかもしれませんが、これは私の一般的な考えです。また、分散構造を次のようなものでさらにモデル化することもできます。 weights = v1Pow ポアソン混合モデル回帰または何かを処理するより良い方法があるかどうかはわかりませんか？KedemとFokianosによる「時系列分析の回帰モデル」の第4章で数学的な議論を見つけました。現時点では、特にアプリケーション（Rでコーディング）で私を少し超えていました。また、ZuurらでMCMCソリューションを見ました。（winBUGSまたはJAGを使用して）BUGS言語のMixed Effects Modelsブック（Chp 23）。それが私の最善の選択肢ですか？これを処理する簡単なMCMCパッケージがRにありますか？私はGAMMやGEEの手法にあまり詳しくありませんが、人々がより良い洞察を提供してくれると思ったら、これらの可能性を喜んで探ります。私の主な目的は、与えられた環境条件で動物の捕獲を予測するモデルを作成することです。第二に、私は動物がその活動の観点からどのような反応をするかを説明したいと思います。（哲学的に）進むための最良の方法、Rでこれをコーディングする方法、またはBUGSでコーディングする方法についての考えをいただければ幸いです。私はRとBUGS（winBUGS）にはかなり慣れていませんが、学んでいます。これは、時間的自己相関に対処することを試みた最初の例でもあります。ありがとう、ダン

16 r mixed-model autocorrelation bugs panel-data

11

Rを使い始めてRを学ぶ方法は？

「自分でやってみよう」と何度か試みましたが、成功は限られています。私はカジュアルなSPSSユーザーであり、SASの経験があります。同様のバックグラウンドを持ち、現在Rを使用している人から1つまたは2つのポインターをいただければ幸いです。

16 r references

1

カスタム分布からランダムサンプルを生成する

Rを使用してカスタムpdfからランダムサンプルを生成しようとしています。私のpdfは次のとおりです fバツ（x ）=32（1 −x2）、0 ≤ X ≤ 1fバツ(バツ）=32（1−バツ2）、0≤バツ≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 均一なサンプルを生成し、それをカスタム分布に変換しようとしました。これを行うには、分布の累積分布関数（Fバツ（x ）Fバツ（バツ）F_{X}(x)）を見つけ、それを均一なサンプル（あなたはあなたはu）に設定し、xについて解きバツバツxます。 Fバツ（x ）= Pr [X≤ X ] = ∫バツ032（1 − y2）dy= 32（x − x33）Fバツ（バツ）=Pr[バツ≤バツ]=∫0x32(1−y2)dy=32(x−x33) F_{X}(x) = \Pr[X \le x] = \int_{0}^{x} \frac{3}{2} (1-y^2) dy = \frac{3}{2} (x - \frac{x^3}{3}) 上記分布を有するランダムサンプルを生成するために、均一なサンプルを取得u∈[0,1]u∈[0,1]u \in[0,1]とを解くxxxに32(x−x33)=u32(x−x33)=u\frac{3}{2} (x - …

16 r sampling uniform

2

Rを使用して「並列セット」プロットを作成することはできますか？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Tormodの質問（ここに投稿）のおかげで、Parallel Setsプロットに出会いました。これは、どのように見えるかの例です：（タイタニックデータセットの視覚化です。たとえば、生き残っていない女性のほとんどが3番目のクラスに属していたことを示しています...） Rでそのようなプロットを再現できるようになりたいです。それは可能ですか？ありがとう、タル

16 r data-visualization categorical-data interactive-visualization

2

パネル/縦断データを使用して回帰分析でデータを標準化することをお勧めしますか？

一般に、係数を適切に比較するために、回帰の独立変数を標準化します（このように、それらは同じ単位：標準偏差を持ちます）。ただし、パネル/縦断データでは、特に階層モデルを推定する場合、データを標準化する方法がわかりません。それが潜在的な問題になる理由を見るために、期間に沿って個人があり、従属変数と1つの独立変数を測定したと仮定します。。完全なプーリング回帰を実行する場合、次のようにデータを標準化しても構いません：、t-統計。一方、プールされていない回帰、つまり個人ごとに1つの回帰を当てはめる場合は、データセット全体（Rコード）ではなく、個人のみでデータを標準化する必要があります。i = 1 、… 、n私=1、…、ni = 1, \ldots, nt = 1 、… 、Tt=1、…、Tt=1,\ldots, Ty私、ty私、ty_{i,t}バツ私、tバツ私、tx_{i,t}x 。z= （x − 平均（x ））/ sd （x ）バツ。z=（バツ−平均（バツ））/SD（バツ）x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,]) } ただし、個人によるさまざまな切片を持つ単純な階層モデルに適合する場合、収縮推定量を使用します。つまり、プール回帰と非プール回帰の間でモデルを推定します。データを標準化するにはどうすればよいですか？プールされた回帰のようにデータ全体を使用していますか？プールされていない場合のように、個人のみを使用していますか？

16 r regression standardization

5

Rのランダムフォレストを使用した分類では、クラスサイズの不均衡をどのように調整する必要がありますか？

現在取り組んでいるプロジェクトのさまざまな分類方法を調査しており、ランダムフォレストを試すことに興味があります。私は自分自身を教育しながら努力しているので、CVコミュニティから提供された助けに感謝します。データをトレーニング/テストセットに分割しました。Rのランダムフォレストでの実験（randomForestパッケージを使用）から、小さなクラスの誤分類率が高いという問題がありました。不均衡なデータでのランダムフォレストのパフォーマンスに関するこの論文を読み、著者は、ランダムフォレストを使用する場合のクラスの不均衡に対処する2つの方法を提示しました。 1.重み付きランダムフォレスト 2.バランスのとれたランダムフォレスト Rパッケージはクラスの重み付けを許可していません（Rヘルプフォーラムから、classwtパラメーターが正しく実行されておらず、将来のバグ修正としてスケジュールされていることを読みました）ので、オプション2を残します。ランダムフォレストの反復ごとに各クラスからサンプリングされたオブジェクトの数。ランダムフォレストのサンプルサイズを同じに設定するのは不安です。将来のデータでパフォーマンスが低下する大規模なクラスに関する情報を失いすぎると感じているからです。より大きなクラスをダウンサンプリングするときの誤分類率は改善することが示されていますが、ランダムフォレストで不均衡なクラスサイズに対処する他の方法があるかどうか疑問に思っていましたか？

16 r machine-learning random-forest

6

Rデータフレームの特定の重複レコードを1つ以外すべて削除するにはどうすればよいですか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 4年前に閉鎖されました。重複したIDを含むデータフレームがあります。重複したIDを持つレコードを削除し、最大値を持つ行のみを保持します。そのため、このような構造の場合（他の変数は表示されません）： id var_1 1 2 1 4 2 1 2 3 3 5 4 2 これを生成したい： id var_1 1 4 2 3 3 5 4 2 unique（）とduplicated（）については知っていますが、最大化ルールを組み込む方法がわかりません...

16 r

2

線形モデル実行Rからの結果の集約

多くの場合、回帰モデリングは科学よりも「芸術的」であるため、回帰構造の多数の反復をテストすることがよくあります。「最適な」モデルを見つけるために、これらの複数のモデルの実行からの情報を要約する効率的な方法は何ですか？私が使用したアプローチの1つは、すべてのモデルをリストに入れ、summary()そのリスト全体で実行することですが、比較するより効率的な方法があると思いますか？サンプルコードとモデル： ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm1 <- lm(weight ~ group) lm2 <- lm(weight ~ group - 1) lm3 <- lm(log(weight) ~ group - 1) #Draw comparisions between models 1 - 3? models <- list(lm1, lm2, lm3) lapply(models, summary)

16 r regression

1

係数が線形制限の対象となるRでのモデルの適合

係数をバインドする1つ（または複数）の厳密な線形制限が利用可能な場合、Rでモデル式をどのように定義する必要がありますか。例として、単純な線形回帰モデルでb1 = 2 * b0であることを知っているとしましょう。ありがとうございました！

16 r regression modeling

2

MCMCをヒットして実行する

ヒットを実装してMCMCアルゴリズムを実行しようとしていますが、その方法を理解するのに少し苦労しています。一般的な考え方は次のとおりです。 MHで提案ジャンプを生成するには、次のようにします。単位球Oの表面上の分布から方向を生成するdddOO\mathcal{O} 制約された空間に沿って符号付き距離を生成します。λλ\lambda ただし、これをR（または他の言語）で実装する方法についてはわかりません。誰かが私を正しい方向に向けるコードのスニペットを持っていますか？ところで、私はこのメソッドを実行するライブラリにあまり興味がありません。自分でそれをコード化してみたいと思います。どうもありがとう。

16 r bayesian mcmc

4

リソース集中コンピューティングにマルチコア、SNOW、またはCUDAパッケージでRを使用するのは誰ですか？

このフォーラムの誰がマルチコア、snowパッケージ、またはCUDAで"> Rを使用しているので、ワークステーションCPUよりも多くの電力を必要とする高度な計算のために、これらのスクリプトを計算するのはどのハードウェアですか？データセンターへのアクセスはどこですか？これらの質問の背景は次のとおりです。現在、私は修士号を書いています。Rとハイパフォーマンスコンピューティングに関する論文であり、実際にRを使用しているユーザーについての強力な知識が必要です。2008年にはRのユーザー数は100万人でしたが、このトピックで見つけられるユーザー統計は多かれ少なかれです。答えます！心からハインリッヒ

16 r mathematical-statistics computing parallel-computing

4

ezANOVAでタイプIIIの平方和を要求する引数を含める必要がありますか？

Rのezパッケージは、SPSSのような統計パッケージからRへの移行を支援する手段として開発されました。これは、（願わくば）ANOVAのさまざまなフレーバーの仕様を単純化し、SPSSのような出力（エフェクトサイズと仮定を含む）テスト）、他の機能の中で。このezANOVA()関数は主にのラッパーとして機能しますcar::Anova()が、現在のバージョンでezANOVA()はタイプIIの平方和のみを実装していcar::Anova()ますが、タイプIIまたは-IIIの平方和を指定できます。おそらく予想していたはずですが、いくつかのユーザーは、ezANOVA()これにより、ユーザーはタイプIIまたはタイプIIIを要求できます。私はそうすることをticし、以下に自分の推論を概説しましたが、この問題に関係する自分自身またはその他の推論に関するコミュニティの意見に感謝します。に「SS_type」引数を含めない理由ezANOVA()：タイプI、II、およびIIIの平方和の違いは、データが不均衡な場合にのみ生じます。この場合、ANOVA計算をいじるよりも、さらにデータを収集することで不均衡を改善することにより多くの利点が得られると思います。タイプIIとタイプIIIの違いは、高次効果によって修飾される低次効果に適用されます。（ただし、引数の複雑化の可能性については以下を参照してください）（1）と（2）が当てはまらないまれな状況（これ以上のデータ収集が不可能であり、研究者が現在私が想像できない修飾された主効果に有効な科学的関心を持っている場合）ezANOVA()ソースまたは採用car::Anova()自体は、III型テストを達成します。このように、タイプIIIテストを取得するために必要な追加の努力/理解は、自分が何をしているかを本当に知っている人だけがそのルートに行くことを保証できる手段として見ています。現在、最新のタイプIIIリクエスターは、現存するが「重要ではない」高次効果が低次効果の平方和の計算にバイアスをかけることができる状況を考慮すると、引数（2）が損なわれることを指摘しました。そのような場合、研究者が高次効果に目を向け、それが「重要ではない」ことを見て、研究者に知られていない低次効果の解釈を試みようとすることは想像できます。私の最初の反応は、これは二乗和の問題ではなく、p値と帰無仮説検定の伝統に関する問題です。尤度比などの証拠のより明示的な測定値は、データと一貫性のあるサポートされているモデルのあいまいさを軽減する可能性が高いと思われます。しかし、私はしていません

16 r anova sums-of-squares

3

Rのバープロットのバーに値を配置する方法[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。この質問は私の前の質問に関連しています。barplotのバーに値を置きたいです。私はRでのプロットの初心者です。

16 r data-visualization

1

量的金融におけるHMMの使用。トレンド/ターニングポイントの検出に機能するHMMの例は？

「政権交代モデル」とも呼ばれる「隠れマルコフモデル」と呼ばれる素晴らしい世界を発見しています。RのHMMを適応させて、傾向と転換点を検出したいと思います。多くの価格でテストできるように、できるだけ一般的なモデルを作成したいと思います。誰でも論文を推薦できますか？私はいくつかを見てきました（そして読んでいます）が、実装が簡単なシンプルなモデルを探しています。また、どのRパッケージが推奨されますか？多くの人がHMMをやっていることがわかります。「時系列の隠れマルコフモデル：Rを使用した導入」という本を購入しました。中身を見てみましょう;）フレッド

16 r time-series finance hidden-markov-model

タグ付けされた質問 「r」

タグ付けされた質問「r」