統計とビッグデータ r

7

Rのテキストマイニングパッケージとは何ですか？また、他のオープンソースのテキストマイニングプログラムはありますか？

大量のデータに対して使用できるRのテキストマイニングパッケージを推奨できますか？第二に、Rのテキストマイニングパッケージのいずれかで利用可能なGUIはありますか？第三に、使いやすく直感的な別のオープンソースのテキストマイニングプログラムがありますか？

12 r text-mining

4

Rを使用した風データの分析

こんにちは、風力タービンからのエネルギーを推定するための風データを分析しています。私は10年間の風のデータを取得し、ヒストグラムをグラフ化しました。第2段階は、ワイブル分布をデータに適合させることでした。パッケージでRを使用してlmom、Weibulの形状とスケールを計算し、これは私が使用したコードです。 >library(lmom) wind.moments<-samlmu(as.numeric(pp$WS)) moments<-pelwei(wind.moments) x.wei<-rweibull(n=length(pp$WS), shape=moments["delta"], scale=moments["beta"]) hist(as.numeric(pp$WS), freq=FALSE) lines(density(x.wei), col="red", lwd=4) データと密度関数の間に若干の遅れがあるようです。これで私を助けてもらえますか？別の質問は、密度関数から年次エネルギーを計算するのに役立ちますか？ありがとうございました

12 r distributions

4

Sweave、R、Latex、Eclipse StatETのセットアップ[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新することがありますので、話題のクロス検証済みのため。閉じた2年前。数日前、SweaveRのセットアップ方法に関する投稿を見ました。これにより、ユーザーはテーブル、グラフなどをLatexに直接エクスポートできます。私はその指示を十分に理解できませんでした。誰もがMacとWindowsの両方でそれを行う方法についてステップバイステップの指示を与えることができますか？

12 r

2

Split-Plot ANOVA：Rでのモデル比較テスト

RのXおよびM引数で使用するための適切なモデル比較を使用して、分割プロットANOVAで効果をテストするにはどうすればよいanova.mlm()ですか？私は?anova.mlmDalgaard（2007）[1]に精通しています。残念ながら、それは分割プロットデザインのみをブラシします。2つの被験者内要因を含む完全にランダム化されたデザインでこれを行います。 N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout of data matrix library(car) # for Anova() fitA …

12 r anova multivariate-analysis repeated-measures split-plot

1

データフレームのフィルタリング

Rの基本機能をまだ学習していますが、サブセット機能は、複数の条件の有無にかかわらず、単一の列に基づいた条件のみに基づいてフィルター処理するように見えますか？データフレームからデータを簡単にフィルタリングするにはどうすればよいですか？複数の条件が提供されている場合使用可能な列全体に条件を適用する必要がある場合。例：次を含むデータフレームが与えられた場合 name D1 D2 D3 D4 julius "A" "A" "B" "B" cate "D" "E" "A" "C" karo "A" "D" "C" "E" このデータフレームをフィルター処理して、D1からD4のいずれかが「E」である名前だけが必要になるようにします。 name D1 D2 D3 D4 cate "D" "E" "A" "C" karo "A" "D" "C" "E" D1が列の大きなリストになる可能性があるとしましょう。このフィルターを実行するための推奨されるアプローチはどのようなものですか？ありがとうございました

12 r

2

ランダムな勾配を持つ混合効果回帰モデルでMCMC仮説検定を行うにはどうすればよいですか？

ライブラリlanguageRは、lmerを使用して混合効果回帰モデルの適合における固定効果のMCMC有意性テストを実行するメソッド（pvals.fnc）を提供します。ただし、lmerモデルにランダムな勾配が含まれている場合、pvals.fncはエラーを返します。そのようなモデルのMCMC仮説検定を行う方法はありますか？もしそうなら、どのように？（回答を受け入れるには、Rで有効な例を使用する必要があります）そうでない場合、方法がない理由は概念的/計算上の理由がありますか？この質問はこれに関連している可能性があります、そこにある内容を確実に理解できませんでした。編集1：pvals.fnc（）はlme4モデルではまだ「何か」を行うが、ランダムな勾配モデルでは何もしないことを示す概念実証。 library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] # fit mixed-effects model primingHeid.lmer = lmer(RT ~ RTtoPrime * ResponseToPrime + Condition + (1|Subject) + (1|Word), data = primingHeid) mcmc = pvals.fnc(primingHeid.lmer, nsim=10000, withMCMC=TRUE) #Subjects are in both …

12 r mixed-model statistical-significance monte-carlo

5

ロジスティック回帰におけるデフォルトのより良い分類

完全な開示：これは宿題です。データセットへのリンクを含めました（http://www.bertelsen.ca/R/logistic-regression.sav）私の目標は、このデータセットのローン債務不履行の予測を最大化することです。私がこれまでに考え出したすべてのモデルは、非デフォルト者の90％を超えると予測していますが、デフォルト値の40％未満は全体として分類効率を最大80％にします。だから、変数間に相互作用効果があるのだろうか？ロジスティック回帰では、考えられる各組み合わせをテストする以外に、潜在的な相互作用効果を特定する方法はありますか？あるいは、債務不履行者の分類の効率を高める方法。私は立ち往生しています。推奨事項は、単語、Rコード、またはSPSS構文の選択に役立ちます。私の主な変数は、次のヒストグラムと散布図で概説されています（二項変数を除く）主な変数の説明： age: Age in years employ: Years with current employer address: Years at current address income: Household income in thousands debtinc: Debt to income ratio (x100) creddebt: Credit card debt in thousands othdebt: Other debt in thousands default: Previously defaulted (dichotomous, yes/no, 0/1) ed: Level …

12 r logistic spss self-study

2

R初心者向けのアイテム分析

20項目のマルチプル選択テストを評価しようとしています。この例で見られるようなアイテム分析を実行したいと思います。したがって、質問ごとに、P値、合計との相関、および選択したオプションの分布が必要です。さまざまな統計ソフトウェアパッケージについては何も知りませんが、プログラミングに慣れており、Rはオープンソースであるため、Rを使用したいと思います。私が想定している擬似ワークフローは次のとおりです。 Excelでデータを準備し、CSVにエクスポートする Rにデータをロードする必要なことを行うパッケージをロードするそのパッケージのコマンドを実行するエクスポートとレポート。私は1と2には自信がありますが、おそらくCRANで閲覧したパッケージを比較する統計用語がないので、3には問題があります。 ltm適切なパッケージになりそうですが、私にはわかりません。どのパッケージを使用しても、コマンドはどうなりますか？サイドの質問：リンクされた例では、MCとMIは何を表していると思いますか？

12 r correlation psychometrics scales

3

相関行列を計算するときに欠損値のある観測を削除することで深刻な問題はありますか？

2500の変数と142の観測値のような巨大なデータセットがあります。変数Xと残りの変数の間の相関関係を実行したいと思います。しかし、多くの列では、エントリが不足しています。「ペアワイズ完全」引数（use=pairwise.complete.obs）を使用してRでこれを実行しようとすると、一連の相関が出力されました。しかし、StackOverflowの誰かがこの記事http://bwlewis.github.io/covar/missing.htmlへのリンクを投稿したため、Rの「pairwise-complete」メソッドが使用できなくなっています。私の質問：「ペアワイズコンプリート」オプションを使用するのが適切な場合はどうすればわかりますか？私がuse = complete.obs戻ってきたno complete element pairsので、それが何を意味するのかを説明できれば、それは素晴らしいことです。

12 r correlation missing-data correlation-matrix

1

Rのlmとbiglmが同じデータに対して異なるp値を与えるのはなぜですか？

ここに小さな例があります： MyDf<-data.frame(x=c(1,2,3,4), y=c(1.2, .7, -.5, -3)) 今とbase::lm： > lm(y~x, data=MyDf) %>% summary Call: lm(formula = y ~ x, data = MyDf) Residuals: 1 2 3 4 -0.47 0.41 0.59 -0.53 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.0500 0.8738 3.491 0.0732 . x -1.3800 0.3191 -4.325 0.0495 * --- …

12 r regression p-value linear-model

3

Rでbetareg関数を使用して混合モデルを実装する方法は？

私は、個々のオタマジャクシの「活動レベル」を測定する比率で構成されるデータセットを持っているため、値は0と1の間でバインドされます。このデータは、特定の時間間隔（移動の場合は1動きがない場合は0）、平均して個人ごとに1つの値を作成します。私の主な固定効果は「密度レベル」でしょう。私が直面している問題は、変量効果として含めたい因子変数「池」があることです。池の違いは気にしませんが、統計的に考慮します。池に関する重要な点の1つは、池が3つしかないことです。ランダムな効果を処理するときは、より多くの因子レベル（5+）を持つことが理想的であることを理解しています。可能であれば、Rを使用して、betareg()またはbetamix()Rで混合モデルを実装する方法についてアドバイスをお願いします。Rのヘルプファイルを読んだことがあるのですが、通常、それらを理解するのは難しいと感じます（各引数パラメーターが実際に意味するところ）私自身のデータと、生態学的な意味での出力値の意味）ので、例を介してよりよく働く傾向があります。関連するノートでは、代わりにglm()二項ファミリーの下でロジットリンクを使用して、この種のデータで変量効果を説明できるかどうか疑問に思っていました。

12 r mixed-model random-effects-model beta-distribution beta-regression

1

ロジスティック損失関数の勾配

これに関する質問をします。私はここでxgboostのカスタム損失関数を書く例を見つけました： loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) grad <- preds …

12 r machine-learning gradient-descent boosting loss-functions

1

ネットワークのメタ分析に最適な方法はどれですか？

現在、ネットワークのメタ分析または混合治療の比較を実行するためのいくつかの異なるアプローチがあります。最も一般的に使用され、アクセス可能なものは、おそらく次のとおりです。ベイジアンフレームワークで： WinBUGSの処理ごとの相互作用アプローチ（例、Jackson et al）; WinBUGSでの階層的な腕ベースのベイズモデリング（たとえば、Zhao et al）; 階層的なコントラストに基づく（すなわち、ノード分割）WinBUGS伴うまたは介してのいずれかでベイジアンモデリング、gemtc及びrjagsR（例えばディアスら若しくはバンValkenhoefら）。 WinBUGSに統合されたネストされたラプラス近似（INLA）（例えば、Sauter et al）; 常連主義の枠組みで： SASの要因分散分析（例：Piepho）; SASでのマルチレベルネットワークメタ分析（例：Greco et al）; mvmetaStataまたはRでの多変量メタ回帰（例、White et al）; R lmeとのネットワークメタ分析netmeta（例：Lumley、ただし2群試験に限定、またはRuckerら）。私の質問は、単純です：それらはほぼ同等ですか、またはほとんどの場合に一次分析に好ましいものがありますか（したがって、他のものを補助分析に予約します）？更新時間の経過とともに、ネットワークメタ分析の方法に関するいくつかの比較分析が行われてきました。カーリンBP、ホンH、シャムヤンTA、セイントF、ケインRL。複数の治療を比較するためのベイジアンアプローチとフリークエンティストアプローチの比較に関する事例研究。Healthcare Research and Quality（米国）の代理店。2013。

12 r stata sas winbugs network-meta-analysis

5

非周期的時系列の傾向を分析する方法

次の非定期的な時系列があるとします。明らかに傾向は減少しているので、（p値を使用した）いくつかのテストでそれを証明したいと思います。値間の時間的（シリアル）自己相関が強いため、古典的な線形回帰を使用できません。 library(forecast) my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9, 6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1), start = 1, end = 27,frequency = 1) plot(my.ts, col = "black", type = "p", pch = 20, cex = 1.2, ylim = c(0,13)) # line of moving averages lines(ma(my.ts,3),col="red", lty = 2, lwd = 2) 私のオプションは何ですか？

12 r time-series

4

Rでのnlsモデルの正しい開始値の取得

次のようなデータセットに単純なべき乗則モデルを適合させようとしています。 mydf： rev weeks 17906.4 1 5303.72 2 2700.58 3 1696.77 4 947.53 5 362.03 6 目標は、電力線を通過させ、それを使用してrev、今後数週間の値を予測することです。たくさんの研究の結果、私はこのnls機能にたどり着きました。その機能を次のように実装しました。 newMod <- nls(rev ~ a*weeks^b, data=modeldf, start = list(a=1,b=1)) predict(newMod, newdata = data.frame(weeks=c(1,2,3,4,5,6,7,8,9,10))) これはlmモデルで機能しsingular gradientますが、エラーが発生します。これは、開始値aとに関係していることを理解していますb。私はさまざまな値を試しましたが、これをExcelでプロットし、1つを渡し、方程式を取得し、方程式の値を使用しましたが、それでもエラーが発生しました。私はこのような答えをたくさん見て、2番目の答えを試しました（最初の答えは理解できませんでした）が、結果はありませんでした。ここで、適切な開始値を見つける方法について、いくつかのヘルプを実際に使用できます。または、nlsの代わりに使用できる他の関数。 mydf簡単に再作成したい場合： mydf <- data.frame(rev=c(17906.4, 5303.72, 2700.58 ,1696.77 ,947.53 ,362.03), weeks=c(1,2,3,4,5,6))

12 r predictive-models nonlinear-regression power-law nls

タグ付けされた質問 「r」

タグ付けされた質問「r」