統計とビッグデータ r

5

Rの散布図に非線形トレンドラインを追加するにはどうすればよいですか？[閉まっている]

散布図があります。非線形トレンドラインを追加するにはどうすればよいですか？

27 r data-visualization nonlinear-regression trend

4

Rにヒートマップを生成するための一連の機能があることは知っていますが、問題は視覚的に魅力的なマップを作成できないことです。たとえば、下の画像は、避けたいヒートマップの良い例です。最初のものは明らかに詳細に欠けていますが、もう1つは（同じ点に基づいて）あまりにも詳細すぎて有用ではありません。両方のプロットは、spatstat Rパッケージのdensity（）関数によって生成されています。どうすればプロットに「フロー」を追加できますか？私が目指しているのは、市販のSpatialKey（スクリーンショット）ソフトウェアの結果が生成できる外観の詳細です。この方向に私を連れて行くことができるヒント、アルゴリズム、パッケージまたはコードの行はありますか？

27 r data-visualization spatial

3

Rのシンボリック計算？

Rでシンボリック計算を行うことが可能かどうか疑問に思っていましたか？例えば、 3Dガウス分布のシンボリック共分散行列の逆行列を得たいと思っていました。 Rでシンボリックな統合と微分を行うこともできますか？

27 r

2

Rを使用した時系列のSTLトレンド

私はRと時系列分析を初めて使用します。私は長い（40年）毎日の気温の時系列の傾向を見つけようとしており、さまざまな近似を試みました。1つ目は単純な線形回帰で、2つ目は黄土による時系列の季節的分解です。後者では、季節成分が傾向よりも大きいようです。しかし、どのようにトレンドを定量化できますか？その傾向がどれほど強いかを伝える数字をお願いします。 Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : -0.003716813 3rd Qu.:5.695720249 3rd Qu.:22.91756 3rd Qu.: 1.700826647 Max. :9.919315613 …

27 r time-series trend

4

CARTを使用する際の「変数重要度」の測定/ランク付け方法（具体的にはRの{rpart}を使用）

rpart（R内）を使用してCARTモデル（特に分類ツリー）を構築する場合、モデルに導入されたさまざまな変数の重要性を知ることはしばしば興味深いです。したがって、私の質問は次のとおりです。CARTモデルの参加変数の変数の重要度をランク付け/測定するための一般的な尺度は何ですか？Rを使用してこれをどのように計算できますか（たとえば、rpartパッケージを使用する場合）たとえば、ダミーコードを作成して、ソリューションを示します。この例は、変数x1とx2が「重要」であり、（ある意味では）x1がx2よりも重要であることを明確にするように構造化されています（x1はより多くのケースに適用されるため、データの構造により大きな影響を与えるため、次にx2）。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

27 r classification model-selection cart rpart

1

lmer混合効果モデルのpredict（）関数

問題： [R]の混合効果{lme4}モデルでは利用できない他の投稿を読みました。predictlmer おもちゃのデータセットでこのテーマを探ってみました... バックグラウンド：データセットはこのソースから適応され、次のように利用できます... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) これらは最初の行とヘッダーです： > head(data) Subject Auditorium Education Time Emotion Caffeine Recall 1 Jim A HS 0 Negative 95 125.80 2 Jim A HS 0 Neutral 86 123.60 3 Jim A HS 0 Positive 180 204.00 4 Jim A …

27 r mixed-model lme4-nlme

2

クラスタリングでバイナリ変数と連続変数の両方を一緒に使用する方法は？

k-meansでバイナリ変数（値0および1）を使用する必要があります。ただし、k-meansは連続変数でのみ機能します。一部の人々は、k-meansが連続変数に対してのみ設計されているという事実を無視して、k-meansでこれらのバイナリ変数をまだ使用していることを知っています。これは私には受け入れられません。質問：それでは、k-means /階層的クラスタリングでバイナリ変数を使用する統計的/数学的に正しい方法は何ですか？ SAS / Rでソリューションを実装する方法は？

27 r clustering binary-data k-means mixed-type-data

2

forループで変数名のリストを生成し、それらに値を割り当てます

forループを使用して変数のリストを作成し、その値を与える簡単な方法があるのだろうか。 for(i in 1:3) { noquote(paste("a",i,sep=""))=i } 上記のコードでは、私が作成しようとa1、a2、a3ただし、Rは、エラーメッセージを表示します1、2、3の値にどの割り当てます。ご協力いただきありがとうございます。

27 r

3

RキャレットとNA

パラメーターの調整機能と統一されたインターフェイスは非常に気に入っていますが、適用された "裸の"モデルでNAが許可されていても、常に完全なデータセット（つまりNAなし）が必要です。そもそも必要ではない面倒な代入法を適用する必要があるという点で、これは非常に面倒です。代入を回避し、キャレットの利点をどのように使用できますか？

26 r missing-data data-imputation caret

2

ベクトルの値の分位数を推定する

実数のセットがあります。新しい数値の分位数を推定する必要があります。Rでこれを行うクリーンな方法はありますか？一般に？これが非常に簡単ではないことを願っています;-) あなたの応答に感謝します。 PK

26 r

2

相互作用項が含まれる場合にのみ問題となる共線性診断

米国の郡で回帰分析を実行し、「独立」変数の共線性をチェックしています。Belsley、Kuh、およびWelschの回帰診断では、Condition IndexおよびVariance Decomposition Proportionsを調べることを推奨しています。 library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 0.000 0.000 0.002 0.053 0.011 …

26 r multicollinearity vif variance-decomposition

2

Rの重回帰の変数の変換

で重回帰を実行しようとしていますR。ただし、私の従属変数には次のプロットがあります。すべての変数を含む散布図行列です（WAR従属変数です）。この変数（およびおそらく独立変数も）で変換を実行する必要があることは知っていますが、必要な正確な変換についてはわかりません。誰かが私を正しい方向に向けることができますか？独立変数と従属変数の関係に関する追加情報を提供できればうれしいです。私の回帰からの診断グラフィックは次のように見えます。編集 Yeo-Johnson変換を使用して従属変数と独立変数を変換すると、診断プロットは次のようになります。ログリンクでGLMを使用する場合、診断グラフィックは次のとおりです。

26 r regression multiple-regression data-transformation

6

正弦波項をデータに適合させる

私はこの投稿を読みましたが、これを自分のデータに適用する方法がまだわからず、誰かが私を助けてくれることを願っています。次のデータがあります。 y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …

26 r regression fitting

1

線形回帰の係数標準誤差の解釈方法は？

Rで表示関数を使用するときに、回帰の係数標準誤差をどのように解釈するのか疑問に思っています。たとえば、次の出力では： lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 より高い標準誤差はより大きな意味を意味しますか？また、残差標準偏差については、値が大きいほど広がりが大きいことを意味しますが、Rの2乗は非常に近い適合を示します。これは矛盾ではありませんか？

26 r regression interpretation

4

Yahoo FinanceからRに株価をインポートしますか？

「最終取引」株価をYahooファイナンスからRにインポートしたいと思います。（ほぼ）リアルタイムのデータを処理することを意図しています。解決策はありますか？有益なコメントをありがとうございます。

26 r

タグ付けされた質問 「r」

タグ付けされた質問「r」