タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
切片はGLMnetでどのように計算されますか?
R以外のソフトウェアを使用して線形回帰用のGLMNETバージョンのエラスティックネットを実装してきました。糖尿病データの lassoモードでR関数glmnetと結果を比較しました。 変数の選択は、パラメーター(ラムダ)の値を変更する場合は問題ありませんが、係数の値が少し異なります。これと他の理由で、アルゴリズム全体で切片(ターゲット変数の平均と見なします)を変更しないので、現在の近似を計算するときの更新ループの切片に由来すると思います。 Trevor Hastieの記事(座標降下による一般化線形モデルの正則化パス、 7ページ、セクション2.6)で説明されています: 切片は正則化されていません。[...]ラムダのすべての値について[...] [L1制約パラメーター] しかし、この記事にもかかわらず、R関数glmnetは、正則化パスに沿った切片に異なる値を提供します(ラムダの異なる値)。傍受の値がどのように計算されるかについて誰かが手掛かりを持っていますか?

2
Rスクリプトを1行ずつ実行する
WindowsでRコンソールからRスクリプトを実行する方法を見つけました。 source("arrrFile.R") 問題は、このコマンドが「サイレント」で実行されることです。コンソールでファイルを入力するのと同じように、コマンドごとにファイルを実行するにはどうすればよいですか?
8 r 

1
このグラフの線の周りのぼかしはどういう意味ですか?
私は次のコマンドを使用してggplot2をいじって、データに行を合わせました。 ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") 赤い点は中央値、青は平均値、垂直の赤い線はエラーバーを示します。最後のステップとして、geom_smooth線形平滑化を使用して線をフィットするために使用しましたmethod="lm"。ラインに沿って、ラインの周りにも鈍い色合いが生成されました。ドキュメントから削除する方法を見つけましたが、オフにするために使用したオプションは次のとおりです。 se: display confidence interval around smooth? 誰かが私が線の周りの陰から理解すべきことを教えてもらえますか?具体的には、解釈の仕方を理解しようとしています。それはおそらくその行に適したものであるに違いありませんが、追加の情報は私にとって非常に役立つでしょう。助言がありますか?

1
時系列でイベントのパターンを探す
私は、12匹の魚からなる8つの処理グループを24時間、5秒間隔で観察する時間経過実験を行っています。行われた測定の中には、観測間で各魚が移動する距離(mm)があります。24時間は、1つの暗い期間と1つの明るい期間に分割されます。 以下は、暗期の最初の1時間における処理グループHの12匹の個々の魚の動きのプロットです。 この特定の期間中、一部の魚は長期間非活動状態であり、一部の魚は非活動期間であることがわかります。暗期全体と明期全体の休息期間の長さと頻度を特定できるように、処理グループの12匹すべての魚のデータを組み合わせる必要があります。これは、治療グループごとに行う必要があります。次に、残りの期間の長さと頻度の違いを比較する必要があります。 私は統計ギャルではなく、完全に海にいます。この問題は私(私のバイオインフォマティクスの背景)のシーケンスアラインメントに似ているため、隠れマルコフモデルを考えていますが、これは根本から外れている可能性があります。誰かがこの問題への適切なアプローチを提案し、おそらくRの小さな例を提案できますか? ありがとう!

3
カテゴリー変数を使用した線形回帰モデルの係数の解釈
R呼び出しの例を示します。最初に、従属変数「寿命」と2つの連続説明変数を使用した線形回帰の簡単な例を示します。 data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 11.3755 23.8591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 63.635709 3.486426 18.252 <2e-16 *** height 0.007485 0.018665 0.401 0.6884 weight 0.024544 0.010428 …

2
PythonまたはRでのA / Bテスト[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 8か月前に閉鎖。 A / Bテスト: http://20bits.com/articles/statistical-analysis-and-ab-testing/ http://elem.com/~btilly/effective-ab-testing/ 私はA / Bテストに精通していませんが、A / Bテストの実行に使用できる特定のパッケージ/ライブラリがRまたはPythonにあるかどうか疑問に思っていました。
8 r  python  ab-test 

1
Rでの特別な混合モデルのあてはめ-optim()の代替
Rで、SASのproc混合を使用して(STATA esでうまく実行する方法がいくつかあります)、つまりReitsma et al(2005)のいわゆる二変量モデルに適合するように、SASで実行できることをしたいと思います。このモデルは、分散がスタディに依存する特別な混合モデルです(以下を参照)。モデルを熟知している何人かの人々とグーグルして話をしても、同時に高速で簡単なアプローチ(つまり、優れた高レベルのモデルフィッティング関数)が得られませんでした。それにもかかわらず、Rには、高速で構築できる何かが存在します。 一言で言えば、次のような状況に直面しています。 (p1,p2)(p1,p2)(p_1,p_2) に [ 0 、1]2[0、1]2[0,1]^2二変量法線をロジット変換されたペアに当てはめたいと考えています。比率は2x2テーブル(つまり、2項データ)から取得されるため、各ロジット変換された観測比率には、当てはめプロセスに含まれるべき分散推定値があります。(s1、s2)(s1、s2)(s_1, s_2)。したがって、共分散行列がペアである2変量正規分布を当てはめたいとします。ΣΣ\Sigma 観察に依存する、すなわち (ロジット(p1)、ロジット(p2))〜N((mあなた1、mあなた2)、Σ + S)(ロジット(p1)、ロジット(p2))〜N((メートルあなた1、メートルあなた2)、Σ+S)(\text{logit}(p_1),\text{logit}(p_2)) \sim N((mu_1, mu_2), \Sigma + S) ここで、Sは次の対角行列です。 (s1、s2)(s1、s2)(s_1, s_2)完全にデータに依存しますが、観測ごとに異なります。muとSigmaはすべての観測で同じです。 現在、optim()(BFGSを使用して)を呼び出して5つのパラメータを推定しています(μ1μ1\mu_1、 μ2μ2\mu_2、および3つのパラメータ ΣΣ\Sigma)。それにもかかわらず、これは非常に遅く、特にシミュレーションには適していません。また、私の目的の1つは、後でmuの回帰係数を導入し、パラメーターの数を増やすことです。 開始値を指定してフィッティングを高速化してみました。また、5つのパラメーターの勾配の計算についても考えました。の追加により可能性が非常に複雑になるためSSS、私はこの方法でエラーを導入するリスクが大きすぎると感じ、まだそれを試みなかったし、自分の計算をチェックする方法も見ていませんでした。 勾配の計算は通常価値がありますか?それらをどのようにチェックしますか? 私は以外にも他のオプティマイザを知っています。optim()つまりnlm()、CRANタスクビュー:最適化についても知っています。どれが試してみる価値がありますか? optim()精度を落とす以外に、スピードアップのためにどんなトリックがありますか? どんなヒントにも感謝します。
8 r  optimization 

2
打ち切られた分布による密度推定?
左側が切り捨てられているデータがあります。私はそれを平滑化しようとするのではなく、何らかの方法で処理する密度推定に適合させたいと思います。 これに対処できる既知の方法(通常、Rで) サンプルコード: set.seed(1341) x <- c(runif(30, 0, 0.01), rnorm(100,3)) hist(x, br = 10, freq = F) lines(density(x), col = 3, lwd = 3) ありがとう:)

1
対数正規和の近似pdf(R)
尤度関数の一部として使用するために対数正規和pdfの近似が必要なアプリケーションがあります。対数正規和の分布には閉じた形がなく、さまざまな近似についての信号処理ジャーナルに多数の論文があります。私は最も単純な近似(Fenton 1960)の1つを使用しています。これはコードを書くのはかなり簡単ですが、過去50年間に書かれた主題に関する文献から判断すると、これはすべてのアプリケーションにとって最適な近似とは限りません。どの近似が最良のMLE推定につながるかを特定する方法について、私は直感がありません。 (A)最尤アプリケーションに使用する必要がある別の近似があるかどうかは誰かが知っていますか?(B)より計算集約型の近似のための既存のRコードはありますか? 更新:問題の背景については、このレビューを参照してください
8 r  lognormal 

3
ベイジアン2因子分散分析
私は、Bayesian Two Factor ANOVAをBUGSにフィッティングするか、Rパッケージを利用することに興味があります。残念ながら、このトピックに関するリソースを見つけるのに苦労しています。助言がありますか?アプローチについて説明した記事も役立ちます。
8 r  bayesian  anova  bugs 

1
比率の非対称信頼区間を報告する方法は?
私はprop.test()、Rを使用して、毎年孵化した卵の数からヒナの割合を計算しました。それにより、ヒナの割合だけでなく、95%信頼区間も得られることがわかります。これは、私が求めているものです。このサイトの別の質問から優れた情報をここで読んだので、95%のCIに対称性がない理由を理解しました。 しかし、これを論文でどのように報告すればよいですか? 私は人々が値を38%(±0.2%)と報告するのを見てきましたが、括弧内の値は95%CIであることが示されています。明らかに、これは非対称CIでは機能しません。これらの場合、上限値と下限値を報告する必要がありますか?

2
lmeで変量効果を指定する方法は?
私はこれを何時間もオンラインで検索しましたが、探しているオンライン投稿はありません。私の質問はSAS Proc混合手順で実装するのは非常に簡単ですが、lmeおよび/またはlmerパッケージでそれを実行する方法がわかりません。というモデルがあるとします 。ここで、は固定されていますが、とはランダムです。私のRコードはy= μ + α + β+ α β+ ey=μ+α+β+αβ+ey = \mu + \alpha + \beta +\alpha\beta + eαα\alphaββ\betaα βαβ\alpha\beta f1 = lme(y ~ factor(a), data = mydata, random = list(factor(b) = ~ 1, factor(a):factor(b) = ~ 1)) エラー:予期=しない: f1 = lme(y ~ factor(a), data = mydata, random = …

1
ネストされた変量効果項の数学的表現
依存レベルの変数と仮定し単位レベル型のユニット内にネストされている(レベル1)で測定された(レベル)、及び型のユニットAは、型のレベル内にネストされているB(レベル3)。yyyあAA222あAABBB333 次の式を当てはめたとします。 y ~ "FIXED EFFECTS [my syntax]" + (1 + x | B/A) ここで、バツxxはレベル1の予測子111です。 私の理解では、そのような数式の数学的表現は次のとおりです。それが正しいか? 以下では、yb 、a 、iyb,a,iy_{b,a,i}の出力である私ii部で番目のデータポイントaaaのあAA部にネストbbbのBBB。このデータポイントには、対応する予測子バツb 、a 、ixb,a,ix_{b,a,i}ます。 yb 、a 、i= 「固定効果」 +あなたb+あなたb 、1 、a+(βb+βb 、1 、a)xyb,a,i=“fixed effects''+ub+ub,1,a+(βb+βb,1,a)xy_{b,a,i} = \text{“fixed effects''} + u_b + u_{b,1,a} + (\beta_b + \beta_{b,1,a})x どこ あなたb〜 N(0、σB)ub∼N(0,σB)u_b \sim N(0, \sigma_B) あなたb 、1 …

2
クラスター数の選択-クラスター検証の基準とドメインの理論的な考慮事項
クラスターの数を選択する必要があるという問題によく直面します。私が最終的に選択するパーティションは、多くの場合、品質基準ではなく視覚的および理論的な懸念に基づいています。 主な質問が2つあります。 1つ目は、クラスターの品質に関する一般的な考え方です。「エルボ」などの基準が理解できることから、コスト関数を参照して最適な値を提案しています。このフレームワークで私が抱えている問題は、最適な基準が理論的な検討に影響されないため、最終的なグループ/クラスターに常に必要となるある程度の複雑さ(研究分野に関連)があることです。 また、のように説明し、ここで最適値はまた、あなたがしているかを考慮して、(例えば経済的制約など)、「下流の目的」制約に関連している何をするつもりクラスタリング事項と。 明らかに、1つの面が意味のある/解釈可能なクラスターを見つけることであり、クラスターが多くなるほど、それらを解釈することが難しくなります。 しかし、常にそうであるとは限りません。8、10、または12個のクラスターが、分析で必要なクラスターの最小の「興味深い」数であることがよくあります。 ただし、肘などの基準では、クラスターがはるかに少ないことが示唆されることが多く、通常は2、3または4です。 Q1。私が知りたいのは、特定の基準(エルボなど)によって提案されたソリューションではなく、より多くのクラスターを選択することを決定した場合の最良の議論の行です。直観的には、制約がない場合(取得したグループの了解度や、非常に多額の場合のコースラの例など)は常に優れているはずです。これを科学雑誌の記事でどのように議論しますか? 別の言い方をすれば、(これらの基準を使用して)クラスターの最小数を特定したら、それよりも多くのクラスターを選択した理由を正当化する必要さえあるということです。意味のある最小限のクラスターを選択する場合にのみ、正当化が行われるべきではありませんか? Q2。これに関連して、クラスターの数が増えるにつれて、シルエットなどの特定の品質指標が実際にどのように減少するかはわかりません。シルエットにクラスター数のペナルティが表示されないので、どうすればよいですか?理論的には、クラスターが多いほど、クラスターの品質は高くなりますか? # R code library(factoextra) data("iris") ir = iris[,-5] # Hierarchical Clustering, Ward.D # 5 clusters ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', hc_method = 'ward.D', graph = T, k = 5) # 20 clusters ec20 = eclust(ir, FUNcluster …

2
PCA固有ベクトルが直交しているが相関しているのはなぜですか?
私は、PCAを説明する素晴らしい記事をいくつか見たことがあります。このアプローチでは、(対称)相関行列の固有ベクトルが直交しているのはなぜですか。また、そのようなベクトルが互いに直交していることを示す方法も理解しています(たとえば、これらの固有ベクトルの行列のクロス積をとると、非対角要素がゼロの行列になります)。 私の最初の質問は、PCAの固有ベクトルの相関関係を調べたときに、相関行列の非対角要素が非ゼロである理由です(つまり、固有ベクトルが直交している場合、どのように相関させることができますか)。 この質問はPCAに直接関係するものではありませんが、私がこの問題に遭遇した方法であるため、この文脈に入れました。PCAを実行するために、R、特にpsychパッケージを使用しています。 例が役立つとしたら、StackOverflowに関するこの投稿には、非常に便利で関連性の高い記事があります(これもRで)。この投稿では、ベストアンサーの作成者は、PCAの負荷(固有ベクトル)がFactor Congruenceまたはクロス積を使用して直交していることを示しています。彼の例では、行列LはPCA負荷行列です。このリンクにない唯一のことはcor(L)、固有ベクトル間の非ゼロ相関を示すことについて私が尋ねている出力を生成することです。 この投稿を読んだ後、直交ベクトルをどのように相関させることができるかについて特に混乱しています。これは、直交性が相関の欠如と同等であることを証明しているようです:なぜPCA固有ベクトルは直交しており、PCAスコアとの相関関係は無相関ですか? 私の2番目の質問は、PCA固有ベクトルを使用してPCAスコアを計算する場合、スコア自体は(予想どおり)無相関です...これについての最初の質問への接続はありますか?なぜ固有ベクトルは相関するがスコアは相関しないのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.