タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
R内のペアのベクトルのランダム化/置換テスト
私は専門家ではないので、用語が少し不器用な場合はご容赦ください。必要に応じて詳細情報を提供させていただきます。 Rに50のペア数値の2つのベクトルがあります。両側のランダム化または置換テストを実行して、それらの違いが偶然によるものかどうかを判断します。 順列検定(ランダム化検定、再ランダム化検定、正確検定とも呼ばれます)は、帰無仮説のもとでの検定統計量の分布が検定統計量のすべての可能な値を計算することによって得られる一種の統計的有意性検定です観測されたデータポイントのラベルの再配置の下。 ベクトルの値の分布がt検定などの他の検定(たとえば、ベクトルの数値の多くが0である)の仮定に違反していると思うので、このタイプの検定を実行します。 BHH2ライブラリのpermtest関数は、ほとんど私がやりたいことを実行しますが、2 50のすべての順列に対して機能します。代わりに、多数の可能な順列をサンプリングして、p値を推定します。私はcoinパッケージを調べましたが、ペアになっている数値ベクトルからのサンプリングを使用した置換テストを実行しているようには見えません。2502502^{50} 一部のグーグルでこのメールが表示されます。これは、パッケージを見つけることができない理由は、それがRのワンライナーであることを示唆しています。残念ながら、Rでこれを作成するのに十分な経験がありません-ライナー。 置換空間のサンプルのみを使用して両側ペア置換テストを実行するパッケージまたはメソッドはありますか? そうでない場合、誰かがそれを行うための短いRコードを共有できるでしょうか?

2
Rの下限または上限で制約付き法線をシミュレート
Rを使用して制約付き正規分布からランダムデータを生成したいと思います。 たとえば、正規分布の変数をシミュレートしたいmean=3, sd= 2とします。5より大きい値はすべて同じ正規分布からリサンプリングされます。 したがって、一般的な機能については、次のことができます。 rnorm(n=100, mean=3, sd=2) それから私はいくつかの考えを持っていました: ifelseすべての値が境界内に収まるように制約されるまで繰り返すループで関数を反復します。 必要以上に多くの値をシミュレートしn、制約を満たす最初の値を取ります。 ベクトル化された通常の変数シミュレーターを避け、代わりに内部のdoでforループを使用して、各観測を一度に1つずつシミュレーションし、必要に応じてループします。 上記のすべては少し不格好に見えます。 質問 平均= 3、sd = 2、最大= 5の法線からRの制約付きランダム正規変数をシミュレートする簡単な方法は何ですか? より一般的には、Rのシミュレートされた変数に制約を組み込む一般的な方法は何ですか

1
Zスコアをパーセンタイルスコアに変換する簡単な方法はありますか?
zスコアをパーセンタイルスコアに変換するのに役立つ関数またはRパッケージを知っている人はいますか?最終目標は、回答者のグループをzスコアの高さに基づいて4つのカテゴリに分類またはランク付けすることです(最低スコア20%、最高スコア30%、最高スコア20%)。 何か案は?よろしくお願いします!

2
BICクラスタリング基準の計算(K平均後のクラスターを検証するため)
Rのk平均値出力について、BIC式に基づいてクラスタリング基準を計算する良い方法があるかどうか疑問に思っていますか?他のクラスタリングモデルと比較できるように、そのBICを計算する方法について少し混乱しています。現在、k-meansのstatsパッケージ実装を使用しています。
9 r  clustering  k-means  bic 

5
階層/マルチレベルデータのブートストラップ(クラスターのリサンプリング)
cats(-MASS-パッケージから)データセットからブートストラップサンプルを作成するためのスクリプトを作成しています。 DavidsonとHinkleyの教科書[1]に従い、私は単純な線形回帰を実行し、iidの観測、つまりペアのリサンプリングからブートストラップするための基本的なノンパラメトリック手順を採用しました。 元のサンプルは次の形式です。 Bwt Hwt 2.0 7.0 2.1 7.2 ... 1.9 6.8 単変量線形モデルを通じて、猫の囲いの重量を脳の重量で説明したいと思います。 コードは次のとおりです。 library(MASS) library(boot) ################## # CATS MODEL # ################## cats.lm <- glm(Hwt ~ Bwt, data=cats) cats.diag <- glm.diag.plots(cats.lm, ret=T) ####################### # CASE resampling # ####################### cats.fit <- function(data) coef(glm(data$Hwt ~ data$Bwt)) statistic.coef <- function(data, i) cats.fit(data[i,]) bootl …

3
glmnetを使用する場合、予測子の有意性を主張するためにp値の有意性を報告する方法は?
2つの値(0または1)を取ることができる従属変数を予測するための予測子の大規模なセット(43,000以上)があります。観測数は45,000以上です。ほとんどの予測子は、単語のユニグラム、バイグラム、およびトライグラムであるため、それらの間には高い共線性があります。私のデータセットにも多くのスパース性があります。私が持っている種類のデータセットで機能するglmnetパッケージからのロジスティック回帰を使用しています。私の問題は、予測変数のp値の有意性をどのように報告できるかです。ベータ係数を取得しましたが、ベータ係数が統計的に有意であると主張する方法はありますか? これが私のコードです: library('glmnet') data <- read.csv('datafile.csv', header=T) mat = as.matrix(data) X = mat[,1:ncol(mat)-1] y = mat[,ncol(mat)] fit <- cv.glmnet(X,y, family="binomial") もう1つの質問は、デフォルトのalpha = 1、投げ縄ペナルティを使用しているため、2つの予測子が同一線上にある場合、投げ縄がそれらの1つをランダムに選択し、他に0のベータ重みを割り当てるという追加の問題を引き起こします。また、類似性の高い係数を、相関係数の1つを選択するのではなく、それらに割り当てるリッジペナルティ(alpha = 0)を試しました。ただし、なげなわペナルティモデルでは、リッジペナルティモデルよりもはるかに低い逸脱度が得られます。共線性が非常に高い両方の予測子を報告できる他の方法はありますか?

1
分位数回帰プロット(quantregパッケージ)の赤い線は何ですか?
R plot.rqのquantregパッケージで使用すると、係数推定分布をプロットして、次のような結果を得ることができます。 赤い点線は何ですか?広範囲のグーグルにより、真ん中の値は99のすべての推定値の平均であることがわかりましたが、赤い点線についてはまだわかりません。


1
ガワーの類似性が変更された図心の信頼区間
いくつかの多変量サンプル(堆積物コアからのコミュニティデータ)間のGowerの類似性に基づいて、重心の95%信頼区間を取得したいと考えています。私はこれまでvegan{}、R内のパッケージを使用して、コア間の変更されたGowerの類似性を取得しました(Anderson 2006に基づくvegdist()。誰かが、修正されたガワー類似度に基づいて、たとえばサンプリングサイトの重心の95%信頼区間を計算する方法を知っていますか? さらに、可能であれば、重心を示すPCOでこれらの95%CIをプロットしたいので、それらが重なっているかどうかは明らかです。 変更されたガワーの類似性を取得するために、私は以下を使用しました: dat.mgower <- vegdist(decostand(dat, "log"), "altGower") しかし、私が知る限り、から重心は得られませんvegdist()。重心を取得し、次に95%のCIを取得してからプロットする必要があります。 アンダーソン、MJ、KEエリンセン、B​​Hマッカードル。2006.ベータ多様性の尺度としての多変量分散。Ecology Letters 9:683–693。

1
打ち切り変数の代入
変数が約200の医療データセットがあります。変数の1つは、バイオマーカー(特定の酵素の濃度)です。その分布は正しいスキューであり、問​​題は特定のレベルを超える値がそのレベルで打ち切られたり、打ち切られたりすることです。したがって、変数の平均は約10ですが、50を超える値は50として記録されます。 これらの打ち切り値に連続値を代入したいと思います。現在、R のマウスパッケージで複数の補完を使用していますが、他のシステムも利用可能であり、他のアプローチを受け入れています。私が考えていたのは、これらのすべての打ち切り値を欠落するように再コード化してから、代入を実行することでした。最初に打ち切られた帰属値のいずれかがカットオフを下回っている場合、それらはカットオフ値として割り当てられます。 これについての意見、および/またはこれに対処するためのより良い方法を知りたいのですが。

1
マウス補完機能はどのように機能しますか?
「マウス:Rの連鎖方程式による多変量代入(JSS 2011 45(3))」で説明されているように、誰かがマウス機能を使用した経験があるかどうか疑問に思いました。それぞれが欠落しているデータの程度が異なる多数の変数を含むデータセットがあります。 私の主な質問は、ベイジアン線形回帰を使用して欠損データを補完miceすることですが、最も重要なものから最も重要でないものまでの予測変数を自動的に使用しますか?また、帰属されたすべてのデータセットをおそらく平均化することは一般的ですか?

5
ANCOVA in Rは異なるインターセプトを示唆していますが、95%のCIは重複しています…これはどのように可能ですか?
2つの共変量とカテゴリカルグループ化変数を含むデータセットがあり、異なるグループ化変数に関連付けられている共変量間で勾配または切片に有意差があるかどうかを知りたいと考えています。anova()とlm()を使用して、3つの異なるモデルの適合を比較しました:1)単一の勾配と切片、2)各グループの異なる切片、および3)勾配と各グループの切片。anova()の一般的な線形テストによると、2番目のモデルは3つのうち最も適切です。各グループに個別の切片を含めることにより、モデルに大幅な改善があります。ただし、これらのインターセプトの95%信頼区間を見ると、これらはすべて重複しており、インターセプト間に有意差がないことを示唆しています。これら2つの結果をどのように調整できますか?モデル選択法の結果を解釈する別の方法は、切片間に少なくとも1つの有意差がなければならないということであると考えましたが、おそらくこれは正しくありませんか? 以下は、この分析を再現するためのRコードです。dput()関数を使用しているので、取り組んでいるのとまったく同じデータを操作できます。 # Begin R Script # > dput(data) structure(list(Head = c(1.92, 1.93, 1.79, 1.94, 1.91, 1.88, 1.91, 1.9, 1.97, 1.97, 1.95, 1.93, 1.95, 2, 1.87, 1.88, 1.97, 1.88, 1.89, 1.86, 1.86, 1.97, 2.02, 2.04, 1.9, 1.83, 1.95, 1.87, 1.93, 1.94, 1.91, 1.96, 1.89, 1.87, 1.95, 1.86, 2.03, 1.88, 1.98, …

1
複数の言語(RやSplusなど)を含む統計プロジェクトのディレクトリ構造?
投稿の構築統計分析プロジェクトとR の ProjectTemplateパッケージを効率的に管理する方法 ... Q:複数の言語が大きく機能している場合(R AND Splusなど)、統計プロジェクトのディレクトリ構造をどのように構築しますか? このトピックに関するほとんどの議論は、主に1つの言語を使用するプロジェクトに限定されています。複数の言語を使用しているときに、だらし、混乱、破損を最小限に抑える方法に関心があります。 以下に、現在のプロジェクト構造と実行方法を示します。代替は私が持っているので、別々のコードにあるかもしれない./Rし、./Splusディレクトリ---それぞれ含む、独自の/lib、/src、/util、/tests、および/mungeディレクトリ。 Q:「ベストプラクティス(存在する場合)」に最も近いアプローチはどれですか。 / data-プロジェクト間で共有されるデータ / libraries-プロジェクト間で共有されるスクリプト / projects / myproject-私の作業ディレクトリ。現在、複数の言語を使用している場合は、この場所を作業ディレクトリとして共有しています。 ./data/-データに固有のデータとデータへの/myprojectシンボリックリンク/data ./cache/ -キャッシュされたワークスペース(例えば、.RDataファイルを使用して保存されたsave.image()Rまたはに.sddファイルを使用して保存されたdata.dump()S-PLUSで) ./lib/-メインプロジェクトファイル。すべてのプロジェクトで同じです。Rプロジェクトが実行されます経由source("./lib/main.R")今度の実行中にload.R、clean.R、test.R、analyze.R、.report.R。複数の言語が使用されている場合、現在、たとえば、S-PLUSは、Rに加えて、私がスローされますmain.ssc、clean.sscこのディレクトリに、などにも。私はこれが好きかどうかわからない。 ./src/-プロジェクト固有の関数。ファイルごとに1つの関数を収集しました。 ./util/-最終的にパッケージ化される一般的な関数。ファイルごとに1つの関数を収集しました。 ./tests/-テストケースを実行するためのファイル。によって使われた./lib/test.R ./munge/-データをクリーニングするためのファイル。によって使われた./lib/clean.R ./figures/-./lib/report.R最終レポートで使用される表と図の出力 ./report/ - .texファイルへのファイルやシンボリックリンクで./figures ./presentation/ - .texプレゼンテーション用のファイル(通常はBeamerクラス) ./temp/-一時スクリプトの場所 ./README ./TODO ./.RData-Rプロジェクトワークスペースを格納する ./.Data/-Sプロジェクトワークスペースを格納するため

1
ピアソンとマクネマーのカイ2乗検定の連続性補正
これはかなり基本的な質問だと思いますが、連続性補正という用語がよくわからないことに気づきました。 私はRを使用correct=TRUEし、chisq.testとの両方で同じ構文を見つけましたmcnemar.test。それらは異なる導通補正方法を参照していますか? ピアソンのカイ2乗検定のyateの連続性は、結果が「過剰調整」される可能性があるため、あまり人気がありませんが、マクネマーのカイ2乗検定についてはどうですか? ありがとう。

1
一般化線形モデル出力から方程式を見つける
特定の要因に基づいて結果の確率を生成し、その結果の曲線をプロットするとします。Rからその曲線の方程式を抽出する方法はありますか? > mod = glm(winner~our_bid, data=mydat, family=binomial(link="logit")) > summary(mod) Call: glm(formula = winner ~ our_bid, family = binomial(link = "logit"), data = mydat) Deviance Residuals: Min 1Q Median 3Q Max -0.7443 -0.6083 -0.5329 -0.4702 2.3518 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -9.781e-01 2.836e-02 -34.49 <2e-16 *** our_bid -2.050e-03 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.