プログラミング r

7

データベースのバックエンドを持つtblから、dplyr tblの1つの列をベクトルとして取得するより簡単な方法はありますか（つまり、データフレーム/テーブルは直接サブセット化できません）。 require(dplyr) db <- src_sqlite(tempfile(), create = TRUE) iris2 <- copy_to(db, iris) iris2$Species # NULL それは簡単すぎるので、 collect(select(iris2, Species))[, 1] # [1] "setosa" "setosa" "setosa" "setosa" etc. しかし、それは少し不器用に思えます。

175 r dplyr lazy-evaluation collect

3

「OR」を使用してデータフレームをサブセット化するために複数の条件を組み合わせる方法は？

Rにdata.frameがあります。2つの異なる列で2つの異なる条件を試したいのですが、これらの条件を包括的にしたいのです。したがって、条件を組み合わせるために「OR」を使用したいと思います。「AND」条件を使用したいときに、以前は次の構文を使用して多くの成功を収めています。 my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] しかし、上記で「OR」を使用する方法がわかりません。

174 r conditional dataframe

11

2つの単語の文字列で両方の単語の最初の文字を大文字にします

2つの単語の文字列があり、両方を大文字にしたいとします。 name <- c("zip code", "state", "final count") Hmiscパッケージには、機能を有するcapitalize最初の単語を大文字に、私は大文字で2番目の単語を取得するかどうかはわかりません。のヘルプページcapitalizeは、そのタスクを実行できることを示唆していません。 library(Hmisc) capitalize(name) # [1] "Zip code" "State" "Final count" 私は手に入れたい： c("Zip Code", "State", "Final Count") 3ワードの文字列についてはどうですか？ name2 <- c("I like pizza")

174 r string title-case

4

Rスクリプトで警告をグローバルに抑制する方法

いくつかの警告をスローする長いRスクリプトがありますが、無視してかまいません。私は使うことができた suppressWarnings(expr) 単一のステートメント。しかし、Rの警告をグローバルに抑制するにはどうすればよいですか？これにはオプションがありますか？

174 r warnings

10

一度に複数のパッケージをロードする

requireコマンドを何度も再入力せずに、一度にたくさんのパッケージをロードするにはどうすればよいですか？私は3つの方法を試しましたが、すべてクラッシュして燃えます。基本的に、パッケージ名のベクトルを、それらをロードする関数に提供したいと思います。 x<-c("plyr", "psych", "tm") require(x) lapply(x, require) do.call("require", x)

174 r packages

8

Rデータフレームの各行

データフレームがあり、そのデータフレームの各行について、いくつかの複雑なルックアップを実行し、データをファイルに追加する必要があります。 dataFrameには、生物学的研究で使用される96ウェルプレートから選択したウェルの科学的結果が含まれているので、次のようなことをしたいと思います。 for (well in dataFrame) { wellName <- well$name # string like "H1" plateName <- well$plate # string like "plate67" wellID <- getWellID(wellName, plateName) cat(paste(wellID, well$value1, well$value2, sep=","), file=outputFile) } 私の手続きの世界では、私は次のようなことをします： for (row in dataFrame) { #look up stuff using data from the row #write stuff to the file …

173 r dataframe rows

3

Rのdata.tableにおける.SDの意味

.SD便利そうに見えますが、私はそれで何をしているか本当にわかりませんそれは何の略ですか？先行期間があるのはなぜですか（フルストップ）。使用するとどうなりますか？読んだ： .SDあるdata.tableのサブセットを含むxグループ列（複数可）を除く各群についてのデータを、。でグループ化するとき、でグループ化するiときby、キー付きby、および_ad hoc_を使用できます。by それは、娘data.tablesが次の操作のためにメモリに保持されることを意味しますか？

172 r data.table

3

なぜlapplyの代わりにpurrr :: mapを使用するのですか？

使用する理由はありますか map(<list-like-object>, function(x) <do stuff>) の代わりに lapply(<list-like-object>, function(x) <do stuff>) 出力は同じであり、私が作成したベンチマークlapplyはそれがわずかに速いことを示しているようです（mapすべての非標準評価入力を評価する必要があるためです）。それで、そのような単純なケースで実際に切り替えを検討する必要がある理由はありますpurrr::mapか？ここでは構文、purrrによって提供されるその他の機能についての好き嫌いについては質問していませんが、標準評価を使用purrr::mapしてlapply仮定することとの比較について厳密に説明しmap(<list-like-object>, function(x) <do stuff>)ます。purrr::mapパフォーマンス、例外処理などの点で利点はありますか？以下のコメントはそうではないことを示唆していますが、誰かがもう少し詳しく説明できるでしょうか？

171 r purrr

8

カテゴリー変数のグラフにカウントではなく％を表示

カテゴリー変数をプロットし、各カテゴリー値のカウントを表示する代わりに。 ggplotそのカテゴリの値の割合を表示する方法を探しています。もちろん、計算されたパーセンテージで別の変数を作成してそれをプロットすることは可能ですが、私はそれを数十回行わなければならず、1つのコマンドでそれを達成したいと思っています。私は次のようなものを試していました qplot(mydataf) + stat_bin(aes(n = nrow(mydataf), y = ..count../n)) + scale_y_continuous(formatter = "percent") エラーが発生したので、間違って使用している必要があります。セットアップを簡単に再現するために、以下に簡単な例を示します。 mydata <- c ("aa", "bb", NULL, "bb", "cc", "aa", "aa", "aa", "ee", NULL, "cc"); mydataf <- factor(mydata); qplot (mydataf); #this shows the count, I'm looking to see % displayed. 実際の場合、私はおそらくのggplot代わりに使用しますqplotが、stat_binを使用する正しい方法はまだ私にはわかりません。次の4つの方法も試しました。 ggplot(mydataf, aes(y …

170 r ggplot2

5

ggplot2折れ線グラフは、「geom_path：各グループは1つの観測のみで構成されています。グループの美的感覚を調整する必要がありますか？」

このデータフレーム（ "df"）の場合： year pollution 1 1999 346.82000 2 2002 134.30882 3 2005 130.43038 4 2008 88.27546 私はこのような折れ線グラフを作成しようとします： plot5 <- ggplot(df, aes(year, pollution)) + geom_point() + geom_line() + labs(x = "Year", y = "Particulate matter emissions (tons)", title = "Motor vehicle emissions in Baltimore") 私が得るエラーは： geom_path：各グループは1つの観測のみで構成されます。グループの美的感覚を調整する必要がありますか？折れ線グラフが必要なのに、グラフが散布図として表示されます。に置き換えようとしましgeom_line()たgeom_line(aes(group = year))が、うまくいきませんでした。答えとして、年を因子変数に変換するように言われました。私はそうしました、そして問題は持続します。これはstr(df)and の出力ですdput(df)。 …

170 r ggplot2

8

複数の警告「不明な列」の修正

すべての種類のコマンド（たとえば、パッケージに更新プログラムをインストールするためのstr（x））について、「不明な列」という複数の警告が常に表示されますが、これをデバッグまたは修正する方法がわかりません。警告「不明な列」は、名前を変更したtbl_df内の変数に明らかに関連していますが、警告は、tbl_dfに関連していないように見えるすべての種類のコマンド（たとえば、パッケージへのアップデートのインストール、str（x）、xは単に文字ベクトル）。

170 r dplyr

9

`dplyr`で動的変数名を使用する

を使用dplyr::mutate()して、データフレームに複数の新しい列を作成します。列名とその内容は動的に生成する必要があります。アイリスからのデータ例： library(dplyr) iris <- tbl_df(iris) Petal.Width変数から新しい列を変更する関数を作成しました。 multipetal <- function(df, n) { varname <- paste("petal", n , sep=".") df <- mutate(df, varname = Petal.Width * n) ## problem arises here df } 次に、列を構築するためのループを作成します。 for(i in 2:5) { iris <- multipetal(df=iris, n=i) } ただし、mutateはvarnameをリテラル変数名と見なすため、ループは4つ（petal.2-petal.5と呼ばれる）ではなく、1つの新しい変数（varnameと呼ばれる）のみを作成します。 mutate()動的名を変数名として使用するにはどうすればよいですか？

168 r dplyr r-faq

12

各行からの複数の引数を使用して、データフレームの各行でapply-like関数を呼び出します

複数の列を持つデータフレームがあります。データフレームの各行について、その行で関数を呼び出したいのですが、関数の入力はその行の複数の列を使用しています。たとえば、このデータと、2つの引数を受け入れるこのtestFuncがあるとします。 > df <- data.frame(x=c(1,2), y=c(3,4), z=c(5,6)) > df x y z 1 1 3 5 2 2 4 6 > testFunc <- function(a, b) a + b このtestFuncを列xおよびzに適用するとします。したがって、行1には1 + 5、行2には2 + 6が必要です。forループを記述せずにこれを行う方法はありますか。私はこれを試しました： > df[,c('x','z')] x z 1 1 5 2 2 6 > lapply(df[,c('x','z')], testFunc) Error in a …

168 r dataframe

5

テーブルをデータフレームに変換する方法

私はこれを持っているRのテーブルを持っていますstr()： table [1:3, 1:4] 0.166 0.319 0.457 0.261 0.248 ... - attr(*, "dimnames")=List of 2 ..$ x: chr [1:3] "Metro >=1 million" "Metro <1 million" "Non-Metro Counties" ..$ y: chr [1:4] "q1" "q2" "q3" "q4" 印刷すると次のようになります。 y x q1 q2 q3 q4 Metro >=1 million 0.1663567 0.2612212 0.2670441 0.3053781 Metro …

167 r

7

JSONファイルからRへのデータのインポート

JSONファイルからRにデータをインポートする方法はありますか？より具体的には、ファイルは、文字列フィールド、オブジェクト、および配列を含むJSONオブジェクトの配列です。RJSONパッケージは、このhttp://cran.r-project.org/web/packages/rjson/rjson.pdfへの対処方法についてあまり明確ではありません。

166 json r

タグ付けされた質問 「r」

タグ付けされた質問「r」