統計とビッグデータ r

1

開始時間と終了時間のデータフレームを次のようなタイムラインプロットに変換できるRのプロットライブラリはありますか？ Y軸のみの意味は、並行性でスタックすることですが、必ずしも並行性を表すとは限りません（中央のギャップを参照）。灰色の各ボックスはイベント、つまりデータフレームの行です。データフレームには、開始時間と停止時間の2つの列があります。

11 r data-visualization

2

lmのデフォルトの診断プロットへの可能な拡張（Rおよび一般的に）？

plot.lm関数を少し掘り始めました。この関数はlmに6つのプロットを提供します。近似値に対する残差のプロットフィットされた値に対するsqrt（|残差|）のスケール-ロケーションプロット通常のQQプロット、クックの距離と行ラベルのプロットレバレッジに対する残差のプロットレバレッジ/（1-レバレッジ）に対するクックの距離のプロットそして、私は現在のプロットの他の一般的な/有用な拡張が線形モデルにどのように存在するのか、そしてそれらをRでどのように行うことができるのでしょうか？（パッケージの記事へのリンクも歓迎します）そのため、boxcox関数（{MASS}から）は別の有用な診断プロットの例です（そのような答えはすばらしいでしょう）が、Rのlmの既存のデフォルト診断プロットのバリエーション/拡張についてもっと知りたいです（ただし、一般的なトピックに関する他の発言は常に歓迎されます）。ここに私が意味することのいくつかの簡単な例があります： #Some example code for all of us to refer to set.seed(2542) x1 <- rnorm(100) x2 <- runif(100, -2,2) eps <- rnorm(100,0,2) y <- 1 + 2*x1 + 3*x2 + eps y[1:4] <- 14 # adding some contaminated points fit <- lm(y~x1+x2) …

11 r regression linear-model diagnostic

1

元のデータを入力として使用する場合、Rのpredict（）関数によって返される予測値は何ですか？

reg <- lm(y ~ x1 + x2, data=example)データセットでフォームの回帰を実行した後、次を使用して予測値を取得できます predict(reg, example, interval="prediction", level=0.95) 回帰を使用して実際のデータセットを予測しているときに、予測値が実際に何を参照しているのか疑問に思っています。元の値を取得すべきではありませんか？

11 r regression

2

カテゴリー変数間の共線性

連続予測子に関して共線性については多くありますが、カテゴリカル予測子についてはそれほど多くはありません。以下に示すこのタイプのデータがあります。最初の要因は遺伝的変数（対立遺伝子数）、2番目の要因は疾患カテゴリーです。明らかに遺伝子は病気に先行し、診断につながる症状を示す際の要因です。ただし、タイプIIまたはIIIの二乗和を使用した定期的な分析は、SPSSを使用した心理学で一般的に行われるように、効果を逃します。タイプIの二乗和分析では、次数に依存するため、適切な次数を入力するとそれが検出されます。さらに、タイプIIまたはIIIで十分に特定されていない、遺伝子に関連しない疾患プロセスの余分なコンポーネントがある可能性があります。以下のanova（lm1）とlm2またはAnovaを参照してください。データの例： set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, iv2)) # quick …

11 r anova categorical-data multicollinearity sums-of-squares

3

Rでワッフルチャートを作成する方法

ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 Rで円グラフを使用する代わりにワッフルチャートをプロットするにはどうすればよいですか？ help.search("waffle") No help files found with alias or concept or title matching ‘waffle’ using fuzzy matching. 私がグーグルで見つけた最も近いものはmosaicplotsです。

11 r data-visualization

1

Rでの大規模なデータセットの処理—チュートリアル、ベストプラクティスなど

私はRの大規模なデータセットに対してさまざまな種類の分析を行う必要があるRの初心者です。そのため、このサイトや他の場所を見回していると、ここには難解であまり知られていない問題がたくさんあるようです。どのパッケージをいつ使用するか、どの変換をデータに適用する（適用しない）かなど。これらすべてをわかりやすく説明し、体系的な方法で情報を提示する本/チュートリアル/ガイドがあるかどうか、私はただ疑問に思っていますか？私は周りを見回して、さまざまなソースからの情報をオンラインで照合するよりも、これを行うことを好みます。前もって感謝します。

11 r large-data

1

Rを使用して被験者間および被験者内のコントラストを持つ4 x 4混合ANOVAを実行する方法

Rの初心者ユーザーは、繰り返し測定ANOVAと格闘しています。 4レベルの被験者因子間の1つ（「グループ」と呼ばれる単一の変数でコード化）と4レベルの被験者因子内の1つ（4つの別々の変数「DV1」、「DV2」、「DV3でコード化」で構成されるデータセットがあります。 '、' DV4 '）。私には次の目的があります。全体的な反復測定ANOVAを実行します。カスタムコントラストを使用してグループを比較します（SPSSのLMATRIXコマンドの場合と同様）。カスタムコントラストを使用して、異なるレベルのDVを比較します（SPSSのMMATRIXコマンドなど）。 2）と3）を同時に組み合わせて、被験者内因子の特定のレベルで特定のグループのみを比較します。合計がゼロにならないコントラストのセットを実行します。 SPSSでこれを問題なく行うことができることはわかっていますが、Rでこれを行う方法を明確に理解できません。このパッケージの一部がさまざまなパッケージでどのように機能するかを確認しましたが、まだそうしていませんこれがRの1つのプロシージャまたは一連の関連プロシージャ内でどのように機能するかは、これまでに確認されています

11 r anova repeated-measures contrasts

1

インフレーションされていないガンマ回帰のSAS NLMIXEDコードをRに変換

Rで連続応答変数のゼロインフレ回帰を実行しようとしています。gamlss実装を知っていますが、概念的にはもう少し単純なDale McLerranによるこのアルゴリズムを実際に試してみたいと思います。残念ながら、コードはSASにあり、nlmeのようなものに書き直す方法がわかりません。コードは次のとおりです。 proc nlmixed data=mydata; parms b0_f=0 b1_f=0 b0_h=0 b1_h=0 log_theta=0; eta_f = b0_f + b1_f*x1 ; p_yEQ0 = 1 / (1 + exp(-eta_f)); eta_h = b0_h + b1_h*x1; mu = exp(eta_h); theta = exp(log_theta); r = mu/theta; if y=0 then ll = log(p_yEQ0); else ll = log(1 - …

11 r sas gamlss

2

ウィルコクソン符号順位検定の妥当性

Cross Validatedのアーカイブを少し調べてみましたが、質問に対する回答が見つかりませんでした。私の質問は次のとおりです。ウィキペディアは、ウィルコクソンの符号付き順位検定（私の質問では少し変更されています）を維持するために必要な3つの仮定を示しています。 i = 1、...、nに対してZi = Xi-Yiとします。差Ziは独立していると想定されます。（a。）各Ziは同じ連続母集団に由来し、（b。）各Ziは共通の中央値について対称です。 XiとYiが表す値は順序付けされています。したがって、「より大きい」、「より小さい」、および「等しい」の比較が役立ちます。ただし、Rの？wilcox.testのドキュメントには、（2.b）が実際には手順でテストされるものであることが示されているようです。「... xとyの両方が指定され、ペアがTRUEの場合、x-yの分布（ペアの2つのサンプルの場合）がmuについて対称であるというヌルのウィルコクソン符号順位検定が実行されます。」これは、「Zが中央値mu = SomeMuの周りに対称的に分布している」という帰無仮説に対してテストが実行されているかのように聞こえます。つまり、null の棄却は、対称性の棄却か、その周りのmuの棄却のどちらかです。 Zは対称ですSomeMuです。これはwilcox.testのRドキュメントの正しい理解ですか？もちろん、これが重要な理由は、いくつかの前後のデータ（上記の「X」と「Y」）でいくつかの対応のある差分テストを行っているためです。「前」と「後」のデータは個別に大きく歪んでいますが、その差はほとんど歪んでいません（まだ多少歪んでいますが）。つまり、単独で考慮された「前」または「後」のデータには歪度〜7〜21（見ているサンプルによって異なります）があり、一方「差異」のデータには歪度〜= 0.5〜5があります。しかし、それほど多くはありません。私の「差異」データに歪度があると、ウィルコクソン検定が誤った/偏った結果をもたらす（Wikipediaの記事に示されているように）場合、歪度は大きな問題になる可能性があります。ただし、ウィルコクソン検定が実際に差分分布が「mu = SomeMuの周りで対称」であるかどうかを検定している場合（？wilcox.testが示すように）、これはそれほど問題ではありません。したがって、私の質問は次のとおりです。上記のどの解釈が正しいですか？「差異」分布の歪度は、ウィルコクソン検定にバイアスをかけますか？歪度が懸念事項である場合：「どの程度の歪度が懸念事項ですか？」ウィルコクソンの符号付き順位検定がここでは著しく不適切と思われる場合、何を使用すればよいかについての提案はありますか？本当にありがとう。私がこの分析をどのように行うかについてさらに提案があれば、私はそれらを聞いてとても嬉しく思います（ただし、その目的のために別のスレッドを開くこともできます）。また、これはCross Validatedに関する最初の質問です。私がこの質問にどのように質問したかについての提案/コメントがあれば、私もそれを受け入れます！少し背景：私は「会社の生産におけるエラー」と呼ぶものについての観察を含むデータセットを分析しています。サプライズインスペクションの前後で製造プロセスで発生するエラーについて観察しました。分析の目的の1つは、「検査によって、観測されたエラーの数に違いがあるか」という質問に答えることです。データセットは次のようになります。 ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD 0123,1,1,1,0,1,1,1,0 2345,1,0,0,0,0,1,1,0 6789,2,1,0,1,0,1,0,0 1234,8,8,0,0,1,0,0,0 約4000の観測があります。その他の変数は、企業の特性を説明する分類的観測です。サイズは、小、中、大のいずれかであり、各企業はそれらの1つだけです。会社は「タイプ」のいずれかまたはすべてです。すべての企業とさまざまなサブグループ（サイズとタイプに基づく）の検査の前後で、観測されたエラー率に統計的に有意な差があるかどうかを確認するために、いくつかの簡単なテストを実行するように依頼されました。たとえば、Rでデータが次のように見える前と後の両方でデータが大幅に歪んでいたため、T検定は失敗しました。 summary(errorsBefore) # Min. 1st …

11 r hypothesis-testing

2

分類ツリー（rpart内）を一連のルールに編成していますか？

（Rの）rpartを使用して複雑な分類ツリーが構築されたら、各クラスに対して生成された決定ルールを整理する方法はありますか？では、1つの巨大なツリーを取得する代わりに、クラスごとに一連のルールを取得しますか？（もしそうなら、どうですか？）以下に、例を示す簡単なコード例を示します。 fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) ありがとう。

11 r classification cart rpart

3

ggplot2を使用して2つのデータセットをQQプロットと比較する方法は？

統計とRの初心者の両方として、私は1：1のアスペクト比でqqplotを生成しようとするのに本当に苦労しています。ggplot2は、デフォルトのRプロットパッケージよりもはるかに多くのコントロールを提供しているようですが、2つのデータセットを比較するためにggplot2でqqplotを実行する方法がわかりません。だから私の質問、ggplot2の同等のものは何ですか？ qqplot(datset1,dataset2)

11 r distributions ggplot2 qq-plot

3

スパースな予測子と応答を使用するCARTのようなメソッドに使用できるライブラリはありますか？

私は、Rのgbmパッケージを使用していくつかの大きなデータセットを処理しています。予測子行列と応答ベクトルの両方がかなりスパースです（つまり、ほとんどのエントリがゼロです）。ここで行ったように、この疎性を利用するアルゴリズムを使用して決定木を構築したいと思っていました。その論文では、私の状況と同様に、ほとんどのアイテムは多くの可能な機能のほんの一部しか持っていないため、データで明示的に示されていない限り、アイテムに特定の機能がないと想定することで、多くの無駄な計算を回避できました。私の希望は、この種のアルゴリズムを使用して同様の高速化を実現できることです（そして、予測精度を向上させるために、ブースティングアルゴリズムをラップします）。彼らは自分のコードを公開していないようだったので、この場合に最適化されたオープンソースのパッケージまたはライブラリ（任意の言語）があるかどうか疑問に思っていました。理想的には、RのMatrixパッケージからスパース行列を直接取得できるものを望みますが、取得できるものは取得します。私は周りを見回しました、そしてこの種のものはそこにあるはずです：化学者はこの問題に頻繁に遭遇するようです（上でリンクした論文は、新しい薬物化合物を見つけることを学ぶことに関するものでした）。ただし、そのうちの1つを転用することもできます。ドキュメント分類は、スパースフィーチャスペースからの学習が役立つ領域でもあるようです（ほとんどのドキュメントにはほとんどの単語が含まれていません）。たとえば、このペーパーでは、C4.5（CARTのようなアルゴリズム）のスパース実装への斜めの参照がありますが、コードはありません。メーリングリストによると、WEKAはスパースデータを受け入れることができますが、上記でリンクした論文の方法とは異なり、WEKAはCPUサイクルの浪費を回避するという点で実際にそれを利用するように最適化されていません。前もって感謝します！

11 r regression machine-learning classification cart

1

Rでの線形弾道アキュムレータ（LBA）シミュレーションの変更

「線形弾道アキュムレータ」モデル（LBA）は、高速で単純な意思決定タスクにおける人間の行動に対してかなり成功したモデルです。Donkin et al（2009、PDF）は、人間の行動データを与えられたモデルのパラメーターを推定することを可能にするコードを提供しています。ただし、モデルに一見マイナーな変更を加えたいのですが、コードでこの変更を行う方法がわかりません。正規モデルから始めるために、LBAはかなり奇妙なレースの競合者として各応答の選択肢を表し、競合者は次の特性が異なる場合があります。開始位置：U（0、X1）で区切られた一様分布に従って、これは人種によって異なります。速度：これは、特定のレース（加速なし）内で一定に保たれますが、N（X2、X3）で定義されるガウス分布に従ってレースごとに異なりますフィニッシュラインポジション（X4）したがって、各競合他社には、X1、X2、X3、およびX4の独自の値のセットがあります。レースは何度も繰り返され、各レースの後に勝者とその時間が記録されます。X5の定数がすべての勝利時間に追加されます。ここで変更したいのは、開始点の変動を終了線に入れ替えることです。つまり、すべての競技者とすべてのレースで開始点をゼロにしてX1を排除したいのですが、各競技者のX4を中心とする均一分布の範囲のサイズを指定するパラメーターX6を追加したいと思います。フィニッシュラインはレースごとにサンプリングされます。このモデルでは、各競合他社にはX2、X3、X4、およびX6の値があり、X5には競合他社全体の値があります。これを手伝ってくれる人がいたら、とてもありがたいです。ああ、そして上記の "X"という名前のパラメーターから、私がリンクしたLBAコードが使用する変数名へのマッピングを提供するために：X1 = x0max; X2 =ドリフト率; X3 = sddrift; X4 =カイ; X5 = Ter。

11 r stochastic-processes

2

信頼区間で交互作用プロットを描画する方法は？

私の試み：私は信頼区間を得ることができませんでした interaction.plot() 一方plotmeans()、「gplot」パッケージからは2つのグラフが表示されません。さらに、plotmeans()デフォルトでは軸が異なるため、2つのグラフを重ね合わせることができませんでした。 plotCI()パッケージ「gplot」からの使用と2つのグラフの重ね合わせに成功しましたが、それでも軸の一致は完全ではありませんでした。信頼区間を使用して交互作用プロットを作成する方法に関するアドバイスはありますか？1つの関数、または重ね合わせ方法plotmeans()やplotCI()グラフに関するアドバイス。コードサンプル br=structure(list(tangle = c(140L, 50L, 40L, 140L, 90L, 70L, 110L, 150L, 150L, 110L, 110L, 50L, 90L, 140L, 110L, 50L, 60L, 40L, 40L, 130L, 120L, 140L, 70L, 50L, 140L, 120L, 130L, 50L, 40L, 80L, 140L, 100L, 60L, 70L, 50L, 60L, 60L, 130L, 40L, 130L, 100L, …

11 r data-visualization confidence-interval interaction

1

基本的なブートストラップ信頼区間のカバレッジ確率

現在取り組んでいるコースについて次の質問があります。モンテカルロ研究を実施して、標準の通常のブートストラップ信頼区間と基本的なブートストラップ信頼区間のカバレッジ確率を推定します。正規母集団からサンプリングし、サンプル平均の経験的カバレッジレートを確認します。標準の通常のブートストラップCIのカバレッジ確率は簡単です。 n = 1000; alpha = c(0.025, 0.975); x = rnorm(n, 0, 1); mu = mean(x); sqrt.n = sqrt(n); LNorm = numeric(B); UNorm = numeric(B); for(j in 1:B) { smpl = x[sample(1:n, size = n, replace = TRUE)]; xbar = mean(smpl); s = sd(smpl); LNorm[j] = xbar + …

11 r confidence-interval self-study bootstrap monte-carlo

タグ付けされた質問 「r」

タグ付けされた質問「r」