プログラミング r

6

これはサンプルデータフレームです。 d <- data.frame( x = runif(90), grp = gl(3, 30) ) の各値のd上位5つの値を持つ行を含むサブセットが必要です。xgrp base-Rを使用すると、私のアプローチは次のようになります。 ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- lapply(splits, head) do.call(rbind, heads) ## x grp ## 1.19 0.8879631 1 ## 1.4 0.8844818 1 ## 1.12 0.8596197 1 ## 1.26 0.8481809 1 …

92 r data.table dplyr

5

grid.arrangeを使用してプロットの可変リストをどのように配置しますか？

library(ggplot2) df <- data.frame(x=1:10, y=rnorm(10)) p1 <- ggplot(df, aes(x,y)) + geom_point() plist <- list(p1,p1,p1,p1,p1) # In my real example,a plot function will fit a ggplot to a list of datasets #and return a list of ggplots like the example above. 私が使用してプロット手配したいと思いgrid.arrange()でをgridExtra。のプロット数plistが可変の場合、どうすればよいですか？これは機能します： grid.arrange(plist[[1]],plist[[2]],plist[[3]],plist[[4]],plist[[5]]) しかし、もっと一般的な解決策が必要です。考え？

92 r ggplot2

15

Rで同等のcaseステートメント

データフレームに変数があり、フィールドの1つに通常7〜8個の値があります。データフレーム内の新しい変数内で、3つまたは4つの新しいカテゴリをまとめたいと思います。最善のアプローチは何ですか？ SQLのようなツールを使用しているが、Rでこれを攻撃する方法がわからない場合は、CASEステートメントを使用します。あなたが提供できるどんな助けも大いに感謝されるでしょう！

92 r case

3

名前付き番号（名前なし）から番号だけを抽出するにはどうすればよいですか？

名前ではなく、B1（newx）線形モデル係数の値だけを探しています。0.5の値が欲しいだけです。「newx」という名前は必要ありません。 newx <- c(0.5,1.5.2.5) newy <- c(2,3,4) out <- lm(newy ~ newx) out 次のようになります： Call: lm(formula = newy ~ newx) Coefficients: (Intercept) newx 1.5 1.0 ここに着きました。しかし今、私は立ち往生しています。 out$coefficients["newx"] newx 1.0

92 r vector named lm

11

「ワークスペースイメージの保存」を無効にする方法 Rでプロンプト？

インタラクティブRシェルを終了すると、毎回迷惑なプロンプトが表示されます。 > > ワークスペースイメージを保存しますか？[y / n / c]：n 私は常に「いいえ」と答えています。自分の作業を保存したい場合は、終了する前にそれを行うためです。プロンプトを取り除く方法は？注：を参照 ?save.image

91 r read-eval-print-loop

1

同じパッケージでroxygen2とdoxygenを使用していますか？[閉まっている]

休業。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善してみませんか？この投稿を編集して、事実と引用で回答できるように質問を更新してください。 2年前休業。この質問を改善するをR使用するパッケージがありますroxygen2。にはいくつかのCコードが/srcあり、私はDoxygenでの作業を始めたところです。ドキュメントを組み合わせる方法、またはコンパイルをroxygen2と統合する方法はありますか？Cコードドキュメントを配置する場所の「ベストプラクティス」はありますか？ roxygen2とdoxygenのグーグルは主にroxygenにつながり、doxygenの結果と似ています。Doxyfilesを含むパッケージをいくつか見つけましたが、一貫した組織がありません。たとえば、lme4は、ソースディレクトリの外部inst/doc/Doxyfileと呼ばれるフォルダーに出力します。MatrixのルートディレクトリにもDoxyfileがあります（以前のリリースではにありました。このドキュメントもパッケージディレクトリの外にエクスポートされます）。doxygenlme4inst Cパッケージ内にドキュメントを含めない理由はありますか？または、広く使用されているにもかかわらず、Rパッケージ内でDoxygenがあまり使用されないのはなぜCですか？更新：関連するroxygen2機能リクエストを参照

91 c r documentation doxygen roxygen2

7

1回の呼び出しで複数の集計関数をグループごとに複数の変数に適用する

次のデータフレームがあります x <- read.table(text = " id1 id2 val1 val2 1 a x 1 9 2 a x 2 4 3 a y 3 5 4 a y 4 9 5 b x 1 7 6 b y 4 4 7 b x 3 9 8 b y 2 8", …

91 r aggregate r-faq

5

密度曲線をRのヒストグラムに適合させる

カーブをヒストグラムにフィットさせるRの関数はありますか？次のヒストグラムがあるとしましょう hist(c(rep(65, times=5), rep(25, times=5), rep(35, times=10), rep(45, times=4))) 正常に見えますが、ゆがんでいます。このヒストグラムを包むように歪んでいる通常の曲線に適合させたい。この質問は基本的なものですが、インターネットでRの答えを見つけることができないようです。

91 r histogram curve-fitting r-faq

2

ベクトルをリストに変換し、ベクトルの各要素をリストの要素として

ベクトルは次のようなものです。 c(1,2,3) #[1] 1 2 3 私はこのようなものが必要です： list(1,2,3) #[[1]] #[1] 1 # #[[2]] #[1] 2 # #[[3]] #[1] 3 私はこれを試しました： list(c(1,2,3)) #[[1]] #[1] 1 2 3

91 r r-faq

7

年と月（「yyyy-mm」形式）を日付に変換しますか？

次のようなデータセットがあります。 Month count 2009-01 12 2009-02 310 2009-03 2379 2009-04 234 2009-05 14 2009-08 1 2009-09 34 2009-10 2386 データをプロットしたい（月をx値として、カウントをy値として）。データにギャップがあるため、今月の情報を日付に変換したい。私は試した： as.Date("2009-03", "%Y-%m") しかし、それはうまくいきませんでした。どうしましたか？as.Date（）も1日を必要とし、その日の標準値を設定できないようです。問題を解決するのはどの機能ですか？

91 r date posix zoo r-faq

4

data.tableのdplyr、私は本当にdata.tableを使用していますか？

データテーブルの上でdplyr構文を使用する場合、dplyrの構文を使用しながら、datatableのすべての速度の利点を得ることができますか？言い換えると、dplyr構文でクエリを実行すると、データテーブルを誤用しますか？または、純粋なデータテーブル構文を使用して、そのすべての機能を活用する必要がありますか？アドバイスをよろしくお願いします。コード例： library(data.table) library(dplyr) diamondsDT <- data.table(ggplot2::diamonds) setkey(diamondsDT, cut) diamondsDT %>% filter(cut != "Fair") %>% group_by(cut) %>% summarize(AvgPrice = mean(price), MedianPrice = as.numeric(median(price)), Count = n()) %>% arrange(desc(Count)) 結果： # cut AvgPrice MedianPrice Count # 1 Ideal 3457.542 1810.0 21551 # 2 Premium 4584.258 3185.0 13791 # 3 Very Good …

91 r data.table dplyr

2

dplyrで結合するときにxとyの列の名前を指定するにはどうすればよいですか？

dplyrを使用して結合したい2つのデータフレームがあります。1つは、名を含むデータフレームです。 test_data <- data.frame(first_name = c("john", "bill", "madison", "abby", "zzz"), stringsAsFactors = FALSE) もう1つのデータフレームには、性別を識別するKantrowitz名コーパスのクリーンアップバージョンが含まれています。最小限の例を次に示します。 kantrowitz <- structure(list(name = c("john", "bill", "madison", "abby", "thomas"), gender = c("M", "either", "M", "either", "M")), .Names = c("name", "gender"), row.names = c(NA, 5L), class = c("tbl_df", "tbl", "data.frame")) 基本的に、test_dataテーブルを使用してkantrowitzテーブルから名前の性別を調べたいと思います。私は関数にこの抽象化するつもりですのでencode_gender、私が使用することになるだろう、データセット内の列の名前を知らないだろう、と私はそれがであることを保証することはできませんので、nameのように、kantrowitz$name。ベースRIでは、次のようにマージを実行します。 merge(test_data, kantrowitz, by.x = "first_names", …

91 r join left-join dplyr

6

RでJSONを解析する

私はRにかなり慣れていませんが、Rを使用すればするほど、それがSASまたはSPSSよりも実際にどれほど強力であるかがわかります。私が見るように、主要な利点の1つは、Webからデータを取得して分析できることです。これは可能だと思いますが（おそらく簡単なことかもしれません）、Webで公開されているJSONデータを解析したいと考えています。私は一気にプログラマーではないので、あなたが提供できるヘルプや指示は大いに感謝されます。基本的な使用例を教えても、おそらく私はそれを通して作業することができます。

90 json r

5

行名がある場合、write.tableは不要な先頭の空の列をヘッダーに書き込みます

この例を確認してください： > a = matrix(1:9, nrow = 3, ncol = 3, dimnames = list(LETTERS[1:3], LETTERS[1:3])) > a A B C A 1 4 7 B 2 5 8 C 3 6 9 テーブルは正しく表示されます。ファイルに書き込む方法は2つあります... write.csv(a, 'a.csv') これは期待通りです： "","A","B","C" "A",1,4,7 "B",2,5,8 "C",3,6,9 そして、write.table(a, 'a.txt')どのねじ込み "A" "B" "C" "A" 1 4 7 "B" …

90 r export-to-csv write.table

3

ggplot2の2列でグループ化

2列でグループ化することはできますか？したがって、外積はgeom_point()and によって描画されgeom_smooth()ますか？例として： frame <- data.frame( series <- rep(c('a', 'b'), 6), sample <- rep(c('glass','water', 'metal'), 4), data <- c(1:12)) ggplot(frame, aes()) # ... そのようなポイント6と12グループを共有し3ますが、ではありません。

90 r ggplot2

タグ付けされた質問 「r」

タグ付けされた質問「r」