タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
時系列が定常か非定常かを知る方法は?
私はRを使用しています、私はGoogleで検索していることを学んだkpss.test()、PP.test()とadf.test()時系列の定常性について知るために使用されています。 しかし、私は彼らの結果を解釈できる統計学者ではありません > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning message: In kpss.test(b$V1) : p-value greater than …

6
折れ線グラフの線が多すぎますが、より良い解決策はありますか?
ユーザーによるアクションの数(この場合は「いいね」)の経時的なグラフを作成しようとしています。 したがって、Y軸として「アクションの数」、X軸は時間(週)、各行は1人のユーザーを表します。 私の問題は、約100人のユーザーのセットについてこのデータを調べたいということです。折れ線グラフは、すぐに100本の線でごちゃごちゃになります。この情報を表示するために使用できるより良いタイプのグラフはありますか?または、個々の行のオン/オフを切り替えられるようにする必要がありますか? すべてのデータを一度に見たいのですが、アクションの数を高精度で識別できることはそれほど重要ではありません。 なぜ私はこれをしているのですか 私のユーザーのサブセット(トップユーザー)について、特定の日付にロールアウトされたアプリケーションの新しいバージョンが気に入らないユーザーを見つけたいと思います。個々のユーザーによるアクション数の大幅な減少を探しています。

3
Rを使用して、処理ごとにデータを分離する散布図を作成する良い方法は何ですか?
私は一般的にRと統計について非常に新しいですが、私はそのネイティブの能力を超えていると思われる散布図を作成する必要があります。 観測値のベクトルがいくつかあり、それらを使用して散布図を作成します。各ペアは3つのカテゴリのうちの1つに分類されます。色または記号で各カテゴリを区切る散布図を作成したいと思います。これは、3つの異なる散布図を生成するよりも優れていると思います。 各カテゴリでは、ある時点で大きなクラスターが存在するという事実に別の問題がありますが、クラスターは他の2つのグループよりも1つのグループで大きくなります。 誰かがこれを行う良い方法を知っていますか?パッケージをインストールして使用方法を学習する必要がありますか?誰でも似たようなことをしましたか? ありがとう

2
主成分分析におけるバイプロットの解釈
この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析: R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。 したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか?最初の固有ベクトルに対応する固有値がデータセットの変動の60%を説明し、2番目の固有値-固有ベクトルが変動の20%を説明するとします。これらを互いにプロットすることはどういう意味ですか?

3
Rはテキスト分類タスクにどれだけうまく対応できますか?[閉まっている]
私はRの速度を上げようとしています。最終的にはテキストの分類にRライブラリを使用したいと思います。テキストの分類を行う際に、Rの拡張性に関して人々の経験はどうなっているかと思っていました。 高次元のデータ(〜30万次元)に遭遇する可能性があります。特に分類アルゴリズムとしてSVMとランダムフォレストを使用することを検討しています。 Rライブラリは問題のサイズに合わせて拡張できますか? ありがとう。 編集1:明確にするために、私のデータセットには10​​00〜3000行(おそらくもう少し)と10のクラスがありそうです。 編集2:私はRに非常に新しいので、可能な限りより具体的になるようにポスターを要求します。たとえば、ワークフロー/パイプラインを提案している場合は、可能であれば各ステップに関係するRライブラリを必ず言及してください。いくつかの追加のポインター(例、サンプルコードなど)がケーキに着氷します。 編集3:まず、あなたのコメントをありがとう。第二に、私は謝罪します。おそらく、この問題についてもっと多くの文脈を与えたはずです。私はRには慣れていませんが、テキストの分類にはそれほど慣れていません。物事の感触をつかむために、tmパッケージを使用して、データの一部で前処理(ステミング、ストップワードの削除、tf-idf変換など)を既に実行しています。tmは約200のドキュメントでも非常に遅いため、スケーラビリティについて心配しました。それから私はFSelectorで遊び始めましたが、それでも本当に遅かったです。そして、それが私がOPを作ったポイントです。 編集4:10個のクラスとクラスごとに約300個のトレーニングドキュメントがあり、実際にはトレーニングセット全体からtermXdocマトリックスを構築しているため、非常に高い次元が発生しました。しかし、すべての1-out-of-k分類問題を一連のバイナリ分類問題に減らすのはどうでしょうか?これにより、k-1の各ステップでトレーニングドキュメントの数(したがって次元数)が大幅に削減されます。このアプローチは良いものですか?精度の点で、通常のマルチクラス実装とどのように比較されますか?

1
センタリングはPCAにどのように違いをもたらしますか(SVDおよび固有分解の場合)?
データのセンタリング(または軽for)はPCAに対してどのような違いがありますか?数学が簡単になる、または最初のPCが変数の手段に支配されるのを防ぐと聞いたことがありますが、まだ概念をしっかりと把握できていないように感じます。 たとえば、ここで一番の答えは、どのようにデータをセンタリングすることで、回帰とPCAのインターセプトを取り除きますか?センタリングしないと、点群の主軸ではなく、原点を介して最初のPCAがどのように引き出されるかを説明します。PCが共分散行列の固有ベクトルからどのように取得されるかについての私の理解に基づいて、私はこれがなぜ起こるのか理解できません。 さらに、センタリングがある場合とない場合の私自身の計算はほとんど意味がないようです。 irisR のデータセットのsetosa花について考えます。サンプルの共分散行列の固有ベクトルと固有値を次のように計算しました。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 最初にデータセットを中央に配置すると、まったく同じ結果が得られます。センタリングは共分散行列をまったく変更しないため、これは非常に明白なようです。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 

3
どの分散インフレ率を使用する必要があります:または?
vifRパッケージの関数を使用して、分散インフレ率を解釈しようとしていますcar。この関数は、一般化されたと両方を出力し。ヘルプファイルによると、この後者の値VIFVIF\text{VIF}GVIF1 /(2 ⋅ DF )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} 信頼楕円体の次元を調整するために、関数はGVIF ^ [1 /(2 * df)]も出力します。ここで、dfは項に関連付けられた自由度です。 ヘルプファイルでこの説明の意味がわからないため、またはを使用すべきかどうかわかりません。私のモデルのためにこれらの2つの値が非常に異なっている(最大〜ある、最大値は〜ある)。GVIFGVIF\text{GVIF}GVIF1 /(2 ⋅ DF )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1 /(2 ⋅ DF )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 誰かが私にどれを使用すべきか、そして信頼楕円体の次元を調整することの意味を教えてください。

4
McNemarの検定とカイ2乗検定の違いは何ですか?また、それぞれを使用するタイミングをどのように知るのですか?
さまざまなソースで読み上げようとしましたが、私の場合、どのテストが適切かはまだわかりません。データセットについて質問している3つの質問があります。 被験者は、異なる時間にXからの感染についてテストされます。Xの正の比率がXの正の比率に関連するかどうかを知りたい: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 私の理解では、データは繰り返し測定されるため、McNemarの検定を使用する必要があります。McNemarの検定は、Xの陽性の割合が変化したかどうかを検定します。 しかし、私の質問にはカイ2乗検定が必要なようです。Xafterの陽性の割合がX beforeの陽性の割合に関連しているかどうかをテストします。 McNemarの検定とカイ2乗の違いを正しく理解しているかどうかさえわかりません。私の質問が「Xに感染した被験者の割合が以前と異なっているか」という場合、正しいテストは何でしょうか? 同様のケースですが、前後の代わりに、ある時点で2つの異なる感染を測定します。 Y |no |yes| X|No |1157|35 | |Yes …

5
相互作用の深さはGBMで何を意味しますか?
Rのgbmの相互作用の深さパラメーターについて質問がありました。これはnoobの質問かもしれませんが、謝罪しますが、ツリーの末端ノードの数を示すと思われるパラメーターは、基本的にX-wayを示します予測子間の相互作用?仕組みを理解しようとしています。さらに、2つの異なる変数が単一の因子に結合されている場合を除き、同じデータセットに対して2つの異なる因子変数を含むデータセットがある場合、かなり異なるモデルが得られます(たとえば、因子1のXレベル、因子2のYレベルX * Y係数)。後者は前者よりもかなり予測可能です。相互作用の深さが増すとこの関係が生まれると考えていました。


5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
メチル化データのglmnetを使用した機能の選択とモデル(p >> N)
GLMとElastic Netを使用してそれらの関連機能を選択し、線形回帰モデルを構築します(つまり、予測と理解の両方であるため、比較的少ないパラメーターを残しておく方が良いでしょう)。出力は連続的です。それはだあたりの遺伝子例でした。私はパッケージについて読んでいますが、従うべき手順について100%確信が持てません。200002000020000505050glmnet CVを実行してラムダを選択します: cv <- cv.glmnet(x,y,alpha=0.5) (Q1)入力データが与えられたら、別のアルファ値を選択しますか? (Q2)モデルを構築する前に他に何かする必要がありますか? モデルに適合: model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) (Q3)「共分散」よりも優れているものはありますか? (Q4)ラムダがCVによって選択された場合、なぜこのステップが必要なのnlambda=ですか? (Q5)lambda.minまたはを使用する方が良いlambda.1seですか? 係数を取得して、どのパラメーターが抜けているか( "。")を確認します。 predict(model, type="coefficients") ヘルプページでは、多くがあるpredict方法(例えば、predict.fishnet、predict.glmnet、predict.lognet、など)。しかし、例で見たように、「プレーン」は予測します。 (Q6)またはその他を使用する必要がありますpredictかpredict.glmnet? 正則化方法について読んだことにもかかわらず、私はRとこれらの統計パッケージがまったく新しいので、問題をコードに適合させているかどうかを確認することは困難です。どんな提案も歓迎します。 UPDATE に基づいて、クラス列のオブジェクトがという要素が含まれ先に述べたように、」finalModelリサンプリングによって選択されたチューニングパラメータの値を装着したモデルで、このオブジェクトはことを使用して、新しいサンプルの予測を生成するために、伝統的な方法で使用することができますモデルの予測関数。」 caretアルファとラムダの両方を調整するために使用: trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") fitM前のステップ2を交換しますか?その場合、glmnetオプション(type.gaussian="naive",lambda=cv$lambda.min/1se)を今指定する方法は? そして、次predictのステップでは、私は置き換えることができますmodelにfitM? 私が行った場合 trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") …

1
ロジスティック回帰からの適合値の標準誤差はどのように計算されますか?
ロジスティック回帰モデルから近似値を予測する場合、標準誤差はどのように計算されますか?つまり、フィッシャーの情報マトリックスを含む係数ではなく、近似値についてです。 私はのみで数を取得する方法を見つけたR(例えば、ここでは R-ヘルプ上、またはここにスタックオーバーフロー上)が、私は式を見つけることができません。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) (できれば大学のウェブサイトで)オンラインソースを提供できれば、それは素晴らしいことです。

3
2つ以上の回帰モデルの勾配を比較するために使用できるテストは何ですか?
1つの予測子に対する2つの変数の応答の違いをテストしたいと思います。最小限の再現可能な例を次に示します。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

4
トピックモデリング/ LDAを実行するためのRパッケージ:単に `topicmodels`と` lda` [終了]
潜在ディリクレ割り当てを実行できるのは2つのRパッケージのみであるように思われます。 1つはlda、Jonathan Changによって作成されました。もう1つはtopicmodelsBettinaGrünとKurt Hornikによって作成されました。 パフォーマンス、実装の詳細、および拡張性に関して、これら2つのパッケージの違いは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.