タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
ARIMA介入伝達関数-効果を視覚化する方法
介入のある月次時系列があり、結果に対するこの介入の影響を定量化したいと思います。シリーズはかなり短く、効果はまだ結論に達していません。 データ cds <- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim=c(29L, 1L), .Dimnames=list(NULL, "CD"), .Tsp=c(2012, 2014.33333333333, 12), class="ts") 方法論 1)介入前のシリーズ(2013年10月まで)がauto.arima機能とともに使用されました。提案されたモデルは、平均がゼロでないARIMA(1,0,0)でした。ACFプロットは良好に見えました。 pre <- window(cds, start=c(2012, 01), end=c(2013, 09)) …

1
2つの回帰係数が有意に異なるかどうかのテスト(Rが理想的)
これが重複する質問である場合は、正しい方法を指摘してください。ただし、ここで見つけた同様の質問は十分に類似していません。私はモデルを推定したとY= α + βバツ+ uY=α+βバツ+あなたY=\alpha + \beta X + u そして、ことがわかります。しかし、それが判明X = X 1 + X 2、及びIが疑わしい∂ Yを/ ∂ X 1 ≠ ∂ Y / ∂ X 2、特に、その∂ Y / ∂ X 1 > ∂ Y / ∂ X 2。私はモデルを推定してY = α + β 1 X 1 + β 2 …

2
Rの複雑な調査データへのマルチレベルモデルの近似
Rのマルチレベルモデルで複雑な調査データを分析する方法に関するアドバイスを探していsurveyます。1レベルモデルでの選択の等しくない確率を重み付けするためにパッケージを使用しましたが、このパッケージにはマルチレベルモデリングの機能がありません。このlme4パッケージはマルチレベルモデリングに最適ですが、クラスタリングのさまざまなレベルで重みを含める方法を知る方法はありません。Asparouhov(2006)は問題を設定します: マルチレベルモデルは、クラスターサンプリング設計からのデータを分析するために頻繁に使用されます。ただし、このようなサンプリング設計では、クラスターレベルと個々のレベルで選択の確率が等しくないことがよくあります。サンプリングの重みは、これらの確率を反映するために、1つまたは両方のレベルで割り当てられます。いずれかのレベルでサンプリングの重みが無視された場合、パラメーター推定値は大幅にバイアスされる可能性があります。 2レベルモデルの1つのアプローチは、MPLUSに実装されているマルチレベルの疑似最尤(MPML)推定器です(Asparouhov et al、?)。Carle(2009)は主要なソフトウェアパッケージをレビューし、続行方法についていくつかの推奨事項を作成します。 複雑な調査データと設計の重みでMLMを適切に実施するには、アナリストは、プログラムの外部でスケーリングされた重みを含み、自動プログラム変更なしで「新しい」スケーリングされた重みを含むことができるソフトウェアが必要です。現在、3つの主要なMLMソフトウェアプログラムがこれを可能にしています:Mplus(5.2)、MLwiN(2.02)、およびGLLAMM。残念ながら、HLMもSASもこれを行うことはできません。 WestとGalecki(2013)はさらに最新のレビューを提供しています。関連する一節を詳しく引用します。 時折、アナリストは、複雑なデザインのサンプルから収集されたデータセットを調査するためにLMMを適合させたいと望んでいます(Heeringa et al、2010、Chapter 12を参照)。複雑なサンプル設計は、一般に、人口を層に分割すること、層内から個人のクラスターを多段階で選択すること、およびクラスターとサンプリングされた最終的な個人の両方の選択確率が等しくないことを特徴とします。これらの等しくない選択確率は、一般的に個人のサンプリング重みの構築につながり、分析に組み込まれたときに記述パラメータの公平な推定を保証します。これらの重みは、調査の非応答用にさらに調整され、既知の母集団の合計に合わせて調整される場合があります。伝統的に、アナリストは、回帰モデルを推定するときに、これらの複雑なサンプリング機能を組み込むための設計ベースのアプローチを検討する場合があります(Heeringa et al。、2010)。最近では、統計学者がこれらのデータを分析するためのモデルベースのアプローチを模索し始めており、LMMを使用してサンプリング層の固定効果とサンプリングされたクラスターのランダム効果を組み込んでいます。 これらのデータを分析するためのモデルベースのアプローチの開発における主な困難は、サンプリングの重みを組み込むための適切な方法を選択することでした(問題の概要については、Gelman、2007を参照してください)。Pfeffermann et al。(1998)、Asparouhov and Muthen(2006)、およびRabe-Hesketh and Skrondal(2006)は、調査の重みを組み込んだ方法でマルチレベルモデルを推定する理論を開発しました。Rabe-HeskethおよびSkrondal(2006)、Carle(2009)そしてHeeringa等。(2010年、第12章)は、現在のソフトウェア手順を使用したアプリケーションを提示していますが、これは引き続き統計研究の活発な分野です。LMMをフィッティングできるソフトウェア手順は、これまでに複雑な設計機能を組み込むために文献で提案されてきたアプローチを実装するさまざまな段階にあります。分析者は、LMMを複雑なサンプル調査データにフィッティングするときにこれを考慮する必要があります。複雑なサンプル調査から収集されたデータにLMMをフィッティングすることに関心のあるアナリストは、調査の重みを推定手順(HLM、MLwiN、Mplus、xtmixed、およびgllamm)に正しく組み込むことができる手順に惹かれます。範囲。 これは私に私の質問をもたらします:Rの複雑な調査データにLMMをフィッティングするためのベストプラクティスの推奨事項はありますか?

1
フリードマン検定とウィルコクソン検定
教師あり機械学習分類アルゴリズムのパフォーマンスを評価しようとしています。観察は99の被験者の母集団から抽出された名義クラスに分類されます(当面は2ですが、これをマルチクラス問題に一般化したいと思います)。 アルゴリズムが入力クラス間で分類精度に有意差を示すかどうかは、私が回答したい質問の1つです。バイナリ分類のケースでは、対応するウィルコクソン検定を使用して、被験者間のクラス間の平均精度を比較しています(基礎となる分布が正規でないため)。この手順をマルチクラス問題に一般化するために、私はフリードマン検定を使用することを意図しました。 しかし、バイナリIVの場合には、これら二つの手順により得られたp値を得たウィルコクソン検定を用いて、激しく変わるp < .001一方p = .25フリードマンテスト用。これは私がフリードマン検定の構造について根本的な誤解を持っていると私を信じさせます。 この場合、フリードマン検定を使用して、すべての被験者にわたって精度の繰り返し測定の結果を比較することは適切ではありませんか? これらの結果を取得するための私のRコード(subjectは、サブジェクトID、acc精度DV、およびexpected観測クラスIVです): > head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 101 none 1.00000000 4 101 high 0.68085106 5 103 none 0.97826087 6 103 high 1.00000000 7 104 none 1.00000000 8 104 high 0.08510638 9 105 none …

4
1つの係数を修正し、回帰を使用して他の係数を近似する方法
をモデルに維持したまま、特定の係数(たとえば)を手動で修正してから、係数を他のすべての予測子にます。β 1 = 1.0β1= 1.0β1=1.0\beta_1=1.0β1= 1.0β1=1.0\beta_1=1.0 Rを使用してこれをどのように達成できますか?特にglmnet可能であればLASSO()で作業したいと思います。 または、この係数を特定の範囲、たとえばに制限するにはどうすればですか?0.5 ≤ β1≤ 1.00.5≤β1≤1.00.5\le\beta_1\le1.0

1
2パーセンタイルを使用して対数正規分布の平均と標準偏差を計算する方法
対数正規分布の2パーセンタイルから平均と標準偏差を計算しようとしています。 私はX = mean + sd * Z、平均とsd を使用して解決する正規分布の計算を実行することに成功しました。 対数正規分布に対して同じことを行おうとすると、方程式が足りないと思います。私はウィキペディアを見て使用しようとしましたln(X) = mean + sd * Zが、この場合の平均とsdが正規分布のものか対数正規のものか混乱しています。 どの方程式を使用する必要がありますか?計算を解決するには2パーセンタイル以上必要ですか?
11 r  lognormal 

1
クラスター検証の情報のバリエーション(VI)メトリックの背後にある直感は何ですか?
私のような非統計学者にとっては、VIMarina Meliaの関連する論文「クラスタリングの比較-情報に基づく距離」(Journal of Multivariate Analysis、2007)を読んだ後でも、メトリック(情報の変動)のアイデアを捉えることは非常に困難です。実際、私はそこにあるクラスタリングの用語の多くに精通していません。 以下はMWEです。使用されるさまざまなメトリックで出力が何を意味するか知りたいのですが。私はこれらの2つのクラスターをR内に同じIDの順序で持っています: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

1
リッジ回帰の結果がlm.ridgeとglmnetの使用で異なる
私はR. Iにおけるリッジ回帰を使用して回帰モデルの最良の変数の解決策を見つけるためにいくつかのデータを使用している適用lm.ridge及びglmnet(ときalpha=0)が、結果は、特にときに、非常に異なっていますlambda=0。両方のパラメーター推定器が同じ値を持っていると仮定します。それで、ここの問題は何ですか?宜しくお願いします

1
Rで実行されるブートストラップの出力を理解する(tsboot、MannKendall)
Rのtsboot呼び出しの解釈について質問があります。Kendallとブートパッケージの両方のドキュメントを確認しましたが、以前ほど賢くありません。 たとえばKendallパッケージの例を使用してブートストラップを実行すると、テスト統計はKendallのタウになります。 library(Kendall) # Annual precipitation entire Great Lakes # The Mann-Kendall trend test confirms the upward trend. data(PrecipGL) MannKendall(PrecipGL) これは上昇傾向を確認します: tau = 0.265, 2-sided pvalue =0.00029206 次に、例は引き続きブロックブートストラップを使用します。 # #Use block bootstrap library(boot) data(PrecipGL) MKtau<-function(z) MannKendall(z)$tau tsboot(PrecipGL, MKtau, R=500, l=5, sim="fixed") 次の結果が表示されます。 BLOCK BOOTSTRAP FOR TIME SERIES Fixed Block Length …
11 r  bootstrap 

2
複数の帰属データセットで行われたテストでプールされたp値を取得するにはどうすればよいですか?
Rでアメリアを使用して、複数の帰属データセットを取得しました。その後、SPSSで繰り返し測定テストを行いました。ここで、テスト結果をプールします。Rubinのルール(Rの複数の代入パッケージを通じて実装)を使用して平均値と標準誤差をプールできることはわかっていますが、p値をプールするにはどうすればよいですか?出来ますか?Rにそうする関数はありますか?前もって感謝します。

4
一般化されたブースト回帰モデルでツリーの数を選択するにはどうすればよいですか?
GBMでツリーの数を選択するための戦略はありますか?具体的には、の関数のntrees引数。Rgbm なぜあなたがntrees最高の合理的な値に設定すべきでないのかわかりません。ツリーの数を増やすと、複数のGBMの結果のばらつきが明らかに減少することに気づきました。木が多いからといって、過剰適合になるとは思いません。 何かご意見は?

1
Rニューラルネット-計算は一定の答えを与える
予測のためにRのneuralnetパッケージ(ドキュメントはこちら)を使用しようとしています。 ここで私がやろうとしていること: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

2
時系列データの空間的自己相関
一連のポリゴン(約200の不規則な形状の連続したポリゴン)の種の数の年間数の20年のデータセットがあります。私は回帰分析を使用して、各ポリゴンの傾向(1年あたりの数の変化)と、管理境界に基づくポリゴンデータの集約を推測しています。 データに空間的自己相関があると確信しています。これは、集約されたデータの回帰分析に影響を与えます。私の質問は-時系列データのSACテストを実行するにはどうすればよいですか?毎年の回帰の残差のSAC(グローバルモランI)を確認する必要がありますか?または、すべての年で1つのテストを実行できますか? はい、SACがあることをテストしたら、これに対処するのは簡単でしたか?私の統計の背景は最小限であり、私が時空間モデリングで読んだすべては非常に複雑に聞こえます。Rに距離重み付けされた自己共変量関数があることを知っています-これは使用するのが簡単ですか? 私はこの問題についてSACを評価/追加する方法について非常に混乱しており、提案、リンク、または参考資料をいただければ幸いです。前もって感謝します!

2
QQプロットの解釈
次のコードと出力を検討してください。 par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") 対数正規のQQプロットは、ワイブルのQQプロットとほとんど同じであるようです。それらをどのように区別できますか?また、ポイントが2つの外側の黒い線で定義された領域内にある場合、それらは指定された分布に従うことを示していますか?

5
ポアソンでない場合、これはどの分布ですか?
7日間に個人が実行したアクションの数を含むデータセットがあります。特定のアクションは、この質問には関係ありません。:ここでは、データ・セットのためのいくつかの記述統計ある RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} これはデータのヒストグラムです: データのソースから判断すると、ポアソン分布に適合すると考えました。ただし、平均≠分散、およびヒストグラムは左側に大きく重み付けされています。さらに、私はgoodfitRでテストを実行し、得ました: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.