タグ付けされた質問 「sas」

SASは統計ソフトウェアパッケージです。このタグは、(a)SASが質問の重要な部分または予想される回答として含まれているトピックトピックの質問に使用します。(b)はSASの使い方だけではありません。

1
インフレーションされていないガンマ回帰のSAS NLMIXEDコードをRに変換
Rで連続応答変数のゼロインフレ回帰を実行しようとしています。gamlss実装を知っていますが、概念的にはもう少し単純なDale McLerranによるこのアルゴリズムを実際に試してみたいと思います。残念ながら、コードはSASにあり、nlmeのようなものに書き直す方法がわかりません。 コードは次のとおりです。 proc nlmixed data=mydata; parms b0_f=0 b1_f=0 b0_h=0 b1_h=0 log_theta=0; eta_f = b0_f + b1_f*x1 ; p_yEQ0 = 1 / (1 + exp(-eta_f)); eta_h = b0_h + b1_h*x1; mu = exp(eta_h); theta = exp(log_theta); r = mu/theta; if y=0 then ll = log(p_yEQ0); else ll = log(1 - …
11 r  sas  gamlss 

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ARIMAプロセスのBox-Jenkins法とは正確には何ですか?
Wikipediaのページには、ボックス・ジェンキンスは、時系列にARIMAモデルを適合させる方法であると述べています。ここで、時系列にARIMAモデルを適合させたい場合は、SASを開いてを呼び出しproc ARIMA、パラメーターを指定します。SASはAR係数とMA係数を提供します。これで、p 、d 、qのさまざまな組み合わせを試すことができます。SASを使用すると、各ケースで一連の係数が得られます。赤池情報量基準が最も低いセットを選択します。p,d,qp,d,qp,d,qp,d,qp,d,qp,d,q 私の質問は、上記の手順のどこでBox-Jenkinsを使用したかです。Box-Jenkinsを使用して、初期推定値を出すことになっていますか?それともSASは内部的に何らかの方法でそれを使用しましたか?p,d,qp,d,qp,d,q

2
RとSASでのリッジ回帰実装の違い
私は、Applied Linear Statistical Modelsの第5版第11章でリッジ回帰の説明を読んでいます。リッジ回帰は、ここで入手可能な体脂肪データに対して行われます。 教科書はSASの出力と一致します。ここで、逆変換された係数は、次のようにフィットモデルで与えられます: Y=−7.3978+0.5553X1+0.3681X2−0.1917X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 これはSASから次のように表示されます。 proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = 0.02 and y = -1; var y intercept x1 x2 x3; run; Obs Y …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ベイジアン統計が頻出法による推定が非常に困難なパラメーターを推定する方法の例
ベイジアン統計学者は、「ベイジアン統計は、頻度論的手法による推定が非常に困難なパラメーターを推定できる」と主張しています。このSASドキュメントからの次の引用は、同じことを言っていますか? これは、漸近近似に依存せずに、データを条件として正確な推論を提供します。小さなサンプルの推論は、大きなサンプルがある場合と同じように進行します。ベイジアン分析では、「プラグイン」手法(関数の推定されたパラメーターをプラグインして関数を推定する方法)を使用せずに、パラメーターの関数を直接推定することもできます。 私はいくつかの教科書で同様の声明を見ましたが、どこで覚えていません。誰かが例を挙げてこれを説明してくれませんか?

4
実世界でMinitabはどの程度役に立ちますか?[閉まっている]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 5年前休業。 私は現在、非常に良いプログラムの統計学の学生です。さまざまなアイテム/クラスにMinitabを使用しています。しかし、私の学部生が教えてくれたように、あなたが学校で使用するものは必ずしも現実の世界で使用されるものではありません。また、C#、Pythonにも精通しており、SASを学習しています(SASの最初の認定テストを受ける準備がほぼ整っています)。 Minitabは実際の研究/仕事で広く使用されていますか?代わりにSASの学習により多くの時間を費やす必要がありますか?
9 sas  minitab 

4
ノンパラメトリック回帰を使用するのはいつですか?
SASでPROC GLMを使用して、次の形式の回帰方程式を当てはめています Y= b0+ b1バツ1+ b2バツ2+ b3バツ3+ b4tY=b0+b1バツ1+b2バツ2+b3バツ3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 結果の赤残差のQQプロットは、正規性からの逸脱を示します。変換は、残差を正規化するのに役立ちません。YYY この時点で、PROC LOESSなどのノンパラメトリックメソッドに安全に切り替えられますか? 私はすでにPROC LOESSを使用しており、PROC GLMよりフィット感が良く見えます。しかし、私はノンパラメトリック回帰についてはあまり知識がありません。パラメトリック回帰よりもノンパラメトリック回帰をいつ選択するかわかりません。 誰かがこれを手伝ってくれる? 先に進み、別の質問を追加します。以下は、モデル内の変数の説明です。 時々、負の予測コストを受け取ります。これは意味がありません。この問題にどのように対処できますか?Y= 医療費バツ1= 注射回数バツ2= 手術の数バツ3= 理学療法の数t = 時間Y=医療費バツ1=注射回数バツ2=手術の数バツ3=理学療法の数t=時間 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of …

3
一般的な加法ポアソンモデル問題におけるスプラインdfの選択
SASを使用したポアソン一般加法モデルを使用して、いくつかの時系列データを近似していPROC GAMます。一般的に言えば、組み込みの一般化された相互検証手順によって、単一のスプラインの少なくとも適切な「開始点」が生成されるようにしてきました。これは、時間の非線形関数と単一のパラメトリック項(1つのI実際に興味があります)。 これまでのところ、私のデータセットの1つを除いて、かなりスムーズに機能しています。そのデータセットには132の観測値があり、GCVは128自由度のスプラインを示唆しています。それは...間違っているようです。大きな過ち。さらに重要なのは、それがまったく安定していないことです。2番目のアプローチを試してみました。「推定値の変更」基準などを使用して、パラメトリック項の推定値が変化しなくなったときに自由度の追加を停止しました。何も変わらない場合はなぜ制御を追加し続けるのですか。 問題は、見積もりがまったく安定していないことです。次の自由度を試しましたが、ご覧のとおり、パラメトリックな用語が乱暴に跳ね返っています。 DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 0.92161 15 1.88763 20 1.98869 30 2.5223 40-60 had convergence issues 70 7.5497 80 7.22267 90 6.71618 100 5.83808 110 4.61436 128 1.32347 この特定のデータビットに対してdfに関して何を使用する必要があるかについて、私はまったく直感がありません。dfを選択する方法に関する他のアイデアはありますか?スプラインの重要性を見るべきですか? …

3
ロジスティック回帰の従属変数と非線形関係を持つ変数を使用できますか?
従属変数がバイナリであり、値または取ることができるロジスティック回帰モデルを構築しているとしましょう。独立変数をすると、独立変数があります。レッツと言う独立変数番目、二変量解析ショーU字トレンド-すなわち、もしI群にビンの観測の各含有ほぼ等しい数および各ビンのための「不良率」を計算する- #観測Y = 0 /各ビンの総観測値-次に、U字型の曲線を取得します。000X 1は、xは2、。。。、x m m k x k 20111バツ1、x2、。。。、xメートルバツ1、バツ2、。。。、バツメートルx_1, x_2, ..., x_mメートルメートルmkkkバツkバツkx_k202020 私の質問は: ベータパラメーターを推定するときに、を入力として直接使用できますか?パラメータの推定で重大なエラーを引き起こす可能性がある統計的仮定に違反していますか?バツkバツkx_k この変数を変換(対数、平方、それ自身との積など)を通じて「線形化」する必要がありますか?

1
インターバル打ち切り
R、JMP、SASで区間検閲生存曲線を実行しました。どちらも同じグラフを提供してくれましたが、表は少し異なりました。これは、JMPから提供されたテーブルです。 Start Time End Time Survival Failure SurvStdErr . 14.0000 1.0000 0.0000 0.0000 16.0000 21.0000 0.5000 0.5000 0.2485 28.0000 36.0000 0.5000 0.5000 0.2188 40.0000 59.0000 0.2000 0.8000 0.2828 59.0000 91.0000 0.2000 0.8000 0.1340 94.0000 . 0.0000 1.0000 0.0000 これは、SASから提供されたテーブルです。 Obs Lower Upper Probability Cum Probability Survival Prob Std.Error 1 14 …

2
Rによる大規模なCox回帰(ビッグデータ)
Rのみを使用して、サンプルの2,000,000行のデータセットで次のようにCox回帰を実行しようとしています。これは、SASのPHREGの直接変換です。サンプルは、元のデータセットの構造を表しています。 ## library(survival) ### Replace 100000 by 2,000,000 test <- data.frame(start=runif(100000,1,100), stop=runif(100000,101,300), censor=round(runif(100000,0,1)), testfactor=round(runif(100000,1,11))) test$testfactorf <- as.factor(test$testfactor) summ <- coxph(Surv(start,stop,censor) ~ relevel(testfactorf, 2), test) # summary(summ) ## user system elapsed 9.400 0.090 9.481 主な課題は、元のデータセット(2m行)の計算時間です。私が理解している限り、SASではこれに最大で1日かかる可能性がありますが、少なくとも終了します。 わずか100,000の観測で例を実行すると、わずか9秒しかかかりません。その後、観測数が100,000増加するごとに、時間はほぼ二次関数的に増加します。 私は操作を並列化する手段を見つけていません(たとえば、可能であれば48コアマシンを活用できます) どちらbiglmも革命Analyticsのすべてのパッケージには、Cox回帰のために利用可能である、と私はそれらを活用することはできません。 これをロジスティック回帰(Revolutionにパッケージがある)の観点から、またはこの問題に対する他の代替手段があるかどうかを表す手段はありますか?それらは根本的に異なることは知っていますが、状況に応じて可能性として私が推測できる最も近いものです。

2
大規模データのSASの代替としてのR
SASのようなものは逐次分析を行うのに対し、Rはすべてのデータをメモリにロードすることを考えると、Rは大きなデータセットの分析には特に役立ちません。とはいえ、ユーザーがRでより効率的に大規模データ分析(統計分析)を実行できるようにするbigmemoryのようなパッケージがあります。 私は、すべての理論的な情報とは別に、エンタープライズ環境で大規模なデータセットを分析するためにRを使用したり使用したりしている人や、発生する可能性のある典型的な問題を知りたいと思っていました。大きなデータセットとは、サイズが最大200 GBのデータセットを指します。また、そのようなユースケースでSASからRに移行する実際の例についての考えは参考になります。
8 r  sas  large-data 

2
二元配置分散分析(3x3)のノンパラメトリック
私の従属変数は連続的で、非正規です(Shapiro-Wilkテストによると左に歪んでいます)。私は2つの独立した変数を持っています(色別のグループ、食品の種類)。各独立変数には3つのレベルがあります。各独立変数の観測数は等しくありません。 私はフリードマン検定やシャイラーレイヘア検定などのノンパラメトリック検定を調べましたが、どちらも適切ではないようです(観測数が異なるため)。 誰かが提案できる代替テストはありますか?SASを使用しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.