タグ付けされた質問 「sas」

SASは統計ソフトウェアパッケージです。このタグは、(a)SASが質問の重要な部分または予想される回答として含まれているトピックトピックの質問に使用します。(b)はSASの使い方だけではありません。


8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

6
コア外のデータ分析オプション
私はSASを5年近くプロとして使用しています。私はそれをラップトップにインストールし、1,000〜2,000の変数と数十万の観測値を持つデータセットを頻繁に分析する必要があります。 私は、同様のサイズのデータ​​セットで分析を実行できるSASの代替を探しています。このような状況で他の人が何を使用するのか興味があります。これは確かに、今日使用されている方法では「ビッグデータ」ではありません。また、私のデータセットはメモリ内に保持するのに十分なほど小さくありません。ハードドライブに保存されたデータにアルゴリズムを適用できるソリューションが必要です。これらは私が役に立たないと調査したものです: R-BigMemoryはメモリ外に格納された行列を作成できますが、要素は同じモードでなければなりません。私は、文字と数値がほぼ50/50に分割されているデータを使用しています。FFパッケージは必要なものに近づきますが、どのプロシージャがFFパッケージと互換性があるのか​​よくわかりません。サポートはやや限られていると思います。 Pandas-RのPythonの代替案に非常に興奮しました。しかし、それもすべてのデータをメモリに保持する必要があります。 Revolution R-これはかなりの見込みを示しています。自宅のコンピューターにコピーがあり(Kaggleにサインアップした場合は無料)、SASの実行可能な代替手段としてまだテストしていません。SASの代替としてのRevolution Rに関するコメントは大歓迎です。 ありがとう 更新1 編集して、私が実際に使っている実用的なソリューションを探しています。ほとんどの場合、SASを使用すると、メモリの制約について少し心配することなく、大きなファイルを一気に検索できます。SASが実装されている場合、メモリ管理をユーザーに対して透過的にする方法を見つけました。しかし、私は仕事にSASを使用しなければならなかったので、データがどこにあるのかをあまり考えずに「大きな」データに取り組むことができるFOSSの代替手段が大好きです。特定の時間(メモリ内またはディスク上)。 私が遭遇した最も近いものは、RのFFパッケージとPythonの地平線上にあるBlazeと呼ばれるものです。それでも、これらの問題は長年にわたって存在していたので、その間にアナリストは何をしていたのでしょうか?メモリ制限でこれらの同じ問題をどのように処理していますか?提供されているソリューションの大部分は次のようです。 RAMを増やす-これは良い解決策ではありません、imo。RAMを超えてもハードドライブに収まるデータセットを簡単に見つけることができます。さらに、ワークフローは、探索的データ分析中に作成されるすべての構造に対応する必要があります。 データのサブセット化-これは調査には適していますが、結果とレポートの最終処理には適していません。最終的には、サブセットで開発されたプロセスはすべて、データセット全体に適用する必要があります(私の場合、とにかく)。 データのチャンク-これは、このワークフローを実際に実装している人々からもっと知りたいことです。どうやって?どのツールで?ユーザーに対して透過的な方法で実行できますか?(つまり、ディスク上のデータ構造を作成し、フレームワークが内部のチャンクを処理します)。
18 r  sas  large-data 


3
SASを学ぶ必要があるRユーザー向けのリソース
私はRを使用しています。毎日。data.frames、apply()ファミリーの関数、オブジェクト指向プログラミング、ベクトル化、ggplot2ジオム/美学の観点から考えます。私は、主にSASを使用する組織で働き始めました。SASユーザー向けのRの学習に関する本があることは知っていますが、SASを使用したことがないRユーザー向けの優れたリソースは何ですか?
18 r  sas 

5
大学院の統計コースが提供するレベルの統計用のオープンソースJavaライブラリ
GK BhattacharyyaとRA Johnsonによる、統計の概念と方法の次のテキストを使用して、応用統計の大学院コースを受講しています。 教授は、宿題にSASを使用することを要求しています。 私の質問は、そのようなクラスで一般的に見られる問題のためにSASの代わりに使用できるJavaライブラリがありますか? 私は現在、Apache Math Commonsで間に合わせようとしていますが、ライブラリには感銘を受けていますが(使いやすさと理解しやすさ)、ヒストグラムを描画する機能(チャートライブラリと組み合わせることを考えると)のような単純なことすら欠けているようです)。 私はコルトを見てきましたが、私の最初の関心はすぐになくなりました。 ご意見をお寄せいただければ幸いです。Stackoverflowで同様の質問を見ましたが、説得力のあるものは見つかりませんでした。 注:R、SciPy、Octave、およびそれらを呼び出すjavaライブラリを認識しています-一緒に探している機能を提供できるJavaネイティブライブラリまたはライブラリのセットを探しています。 注:このようなクラスでカバーされるトピックには、通常、1標本および2標本検定、平均値と中央値の信頼区間、記述統計、適合度検定、一元配置および二元配置分散分析、同時推論、検定が含まれます。分散、回帰分析、およびカテゴリーデータ分析。
15 r  sas  java 

1
SASとRのANOVAでのタイプIIIの二乗和の矛盾する結果
私は両方のアンバランス要因実験からのデータを分析していますSASとR。両方SASとR正方形の類似のタイプI和を提供するが、正方形のそのタイプIIIの和は互いに異なります。以下はSASとRコードと出力。 DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; CLASS T B; MODEL Y=T|B; RUN; SASのタイプI SS …
15 r  anova  sas  sums-of-squares 

2
混合効果モデルからの予測値の周りの信頼区間はどういう意味ですか?
このページを見ていましたRのlmeとlmerの信頼区間のメソッドに注目しました。Rを知らない人にとっては、混合効果またはマルチレベルモデルを生成するための関数です。反復測定デザインのようなものに固定効果がある場合、予測値(平均と同様)の周りの信頼区間はどういう意味ですか?効果のために合理的な信頼区間を設定できることは理解できますが、そのような設計で予測された平均値の周りの信頼区間は不可能に思えます。ランダム変数が推定値の不確実性に寄与するという事実を認識することは非常に大きい可能性がありますが、その場合、値全体を比較する推論的な意味ではまったく役に立ちません。または、 ここに何か欠けているのか、状況の分析が正しいのか?... [そしておそらく、それがlmerで実装されていない理由の正当化(しかしSASで簡単に取得できる)。:)]

2
RとExcelの自己相関の式
Rがlag-k自己相関を計算する方法を理解しようとしています(明らかに、MinitabとSASで使用されているのと同じ式です)ので、シリーズとそのk-lagedバージョンに適用されるExcelのCORREL関数の使用と比較できます。RとExcel(CORRELを使用)は、わずかに異なる自己相関値を提供します。 また、ある計算が他の計算よりも正しいかどうかを調べることにも興味があります。
13 r  sas  autocorrelation  excel 

2
SAS PROC GLIMMIXが二項glmmに対してglmer(lme4)とは非常に異なるランダムな勾配を与えるのはなぜですか
私はRに精通しているユーザーであり、4つの生息地変数について5年間で約35人のランダムな勾配(選択係数)を推定しようとしています。応答変数は、場所が「使用済み」(1)または「使用可能」(0)の生息地(以下「使用」)であったかどうかです。 Windows 64ビットコンピューターを使用しています。 Rバージョン3.1.0では、以下のデータと式を使用します。PS、TH、RS、およびHWは固定効果です(標準化された、測定された生息地までの距離)。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

3
と残差逸脱の自由度を使用したロジスティック回帰係数のテスト
概要:標準正規分布ではなく、ロジスティック回帰係数のテストに分布(残留偏差に基づく自由度を伴う)の使用をサポートする統計理論はありますか?ttt SAS PROC GLIMMIXでロジスティック回帰モデルをフィッティングする際、デフォルト設定でロジスティック回帰係数が標準正規分布ではなく分布を使用してテストされることを少し前に発見しました。つまり、GLIMMIXはの比率で列を報告します(この質問の残りの部分ではと呼びます)、ただし「自由度」列、および分布を仮定した値も報告しますttt11^1β^1/ var (β^1)−−−−−−√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}zzzppptttzzz残差偏差に基づく自由度-つまり、自由度=観測の総数からパラメータの数を引いたもの。この質問の最後に、デモンストレーションと比較のためにRとSASでコードと出力を提供します。22^2 ロジスティック回帰などの一般化線形モデルでは、この場合の分布の使用をサポートする統計理論はないと考えていたため、これは私を混乱させました。代わりに、この事件について私たちが知っていることはttt zzzは「ほぼ」正規分布しています。 この近似は、サンプルサイズが小さい場合には不十分です。 それにもかかわらず、が正規回帰の場合に想定できるような分布を持っていると想定することはできません。zzzttt さて、直感的なレベルでは、がほぼ正規分布している場合、実際には、正確にでなくても、基本的に「似た」分布を持っているかもしれません。したがって、ここでの分布の使用はおかしくないようです。しかし、私が知りたいことは次のとおりです。zzzttttttttt 実際、ロジスティック回帰および/または他の一般化線形モデルの場合、実際に分布に従うことを示す統計理論はありますか?zzzttt そのような理論がない場合、この方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりもさらに良いことを示す論文が少なくともありますか?ttt より一般的には、おそらく基本的に賢明であるという直感以外に、GLIMMIXがここで行っていることに対する実際のサポートはありますか? Rコード: summary(glm(y ~ x, data=dat, family=binomial)) R出力: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: Estimate Std. Error z …

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
ネットワークのメタ分析に最適な方法はどれですか?
現在、ネットワークのメタ分析または混合治療の比較を実行するためのいくつかの異なるアプローチがあります。 最も一般的に使用され、アクセス可能なものは、おそらく次のとおりです。 ベイジアンフレームワークで: WinBUGSの処理ごとの相互作用アプローチ(例、Jackson et al); WinBUGSでの階層的な腕ベースのベイズモデリング(たとえば、Zhao et al); 階層的なコントラストに基づく(すなわち、ノード分割)WinBUGS伴うまたは介してのいずれかでベイジアンモデリング、gemtc及びrjagsR(例えばディアスら若しくはバンValkenhoefら)。 WinBUGSに統合されたネストされたラプラス近似(INLA)(例えば、Sauter et al); 常連主義の枠組みで: SASの要因分散分析(例:Piepho); SASでのマルチレベルネットワークメタ分析(例:Greco et al); mvmetaStataまたはRでの多変量メタ回帰(例、White et al); R lmeとのネットワークメタ分析netmeta(例:Lumley、ただし2群試験に限定、またはRuckerら)。 私の質問は、単純です:それらはほぼ同等ですか、またはほとんどの場合に一次分析に好ましいものがありますか(したがって、他のものを補助分析に予約します)? 更新 時間の経過とともに、ネットワークメタ分析の方法に関するいくつかの比較分析が行われてきました。 カーリンBP、ホンH、シャムヤンTA、セイントF、ケインRL。複数の治療を比較するためのベイジアンアプローチとフリークエンティストアプローチの比較に関する事例研究。Healthcare Research and Quality(米国)の代理店。2013。

3
コンピュータシミュレーションを使用して、大学院レベルでの統計的概念をよりよく理解する
こんにちは私は統計学の大学院コースを受講しており、テスト統計学およびその他の概念をカバーしてきました。 しかし、私はしばしば公式を適用して、物事がどのように機能するかについて一種の直感を開発することができますが、シミュレーションの実験で私の研究をバックアップした場合、私は目の前の問題により優れた直感を開発するだろうと感じることがよくあります。 したがって、私はクラスで議論するいくつかの概念をよりよく理解するために、簡単なシミュレーションを書くことを考えてきました。今私は言うJavaを使用することができます: 正規平均と標準偏差でランダムな母集団を作成します。 次に、小さなサンプルを取り、Type-IおよびType-IIエラーを経験的に計算してみます。 今私が持っている質問は: これは直感を養うための正当なアプローチですか? これを行うソフトウェアはありますSASか(?、R?) これは、このようなプログラミングを扱う統計学の分野ですか?シミュレーション?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.