統計とビッグデータ r

2

私は線+指数曲線をいくつかのデータに当てはめようとしています。最初に、人工データでこれを実行しようとしました。関数である：それが効果的に直線部を有する指数曲線、ならびに追加の水平シフトパラメータである（M）。ただし、Rの関数を使用すると、最初にデータを生成するために使用したのと同じパラメーターを使用しても、「初期パラメーター推定値での特異な勾配行列」エラーが発生します。y= A + B ⋅ R（x − m ）+ C ⋅ Xy=a+b⋅r（バツ−m）+c⋅バツy=a+b\cdot r^{(x-m)}+c\cdot xnls() さまざまなアルゴリズム、さまざまな開始値を試しoptim、残差平方和を最小化するために使用しようとしましたが、すべて役に立ちませんでした。私は、このために考えられる理由は、式のオーバーパラメータ化することができることを読んだが、私は（それがある？）それはないと思う誰もがこの問題のための提案を持っていますか？または、これは単なる厄介なモデルですか？短い例： #parameters used to generate the data reala=-3 realb=5 realc=0.5 realr=0.7 realm=1 x=1:11 #x values - I have 11 timepoint data #linear+exponential function y=reala + realb*realr^(x-realm) + realc*x #add a bit of noise …

19 r nonlinear-regression nls

3

カルマンフィルタリングでDLMを予測に使用する方法

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 8年前に移行されました。誰かが時系列のRでDLMカルマンフィルタリングを使用する方法の例を私に教えてくれますか？私はこれらの値を持っていると言います（年ごとの季節性を持つ四半期値）; 次の値を予測するためにDLMをどのように使用しますか？ところで、十分な履歴データがありますか（最小値は何ですか）？ 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 私はRコードの料理本スタイルのハウツーの段階的な答えを探しています。予測の正確さは私の主な目標ではありません。十分なデータがない場合でも、2011Q2の数字を与えるコードのシーケンスを学習したいだけです。

19 r time-series forecasting

4

Rに自己相関エラーがある単純な線形モデル[閉じた]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 8か月前に閉鎖されました。 Rの自己相関エラーを含む線形モデルをどのように適合させますか？stataではpraisコマンドを使用しますが、Rに相当するものが見つかりません...

19 r time-series autocorrelation

2

VAR予測方法

資産の価格を予測するためにVARモデルを構築していますが、私の方法が統計的に適切かどうか、含めたテストが関連するかどうか、入力変数に基づいて信頼できる予測を確保するためにさらに必要な場合は知りたいと思います。以下は、グレンジャーの因果関係を確認し、選択したVARモデルを予測する現在のプロセスです。 require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference to achieve stationarity d.x1 …

19 r forecasting modeling var

4

異分散性に対処する最良の方法は？

不均一分散性が非常に明確な、近似値の関数での線形モデルの残差値のプロットがあります。しかし、この不均一分散性が私の線形モデルを無効にすることを理解している限り、今どのように進めるべきかはわかりません。（そうですか？）パッケージのrlm()関数を使用した堅牢な線形フィッティングを使用するのは、MASS不均一分散性に対して明らかに堅牢であるためです。係数の標準誤差は不均一分散のために間違っているので、標準誤差を不均一分散に対してロバストになるように調整できますか？ここでスタックオーバーフローに投稿された方法を使用：ヘテロスケダスティクスによる回帰標準エラーを修正私の問題に対処するために使用する最良の方法はどれですか？ソリューション2を使用すると、モデルの予測機能はまったく役に立ちませんか？ Breusch-Pagan検定では、分散が一定ではないことが確認されました。近似値の関数における私の残差は次のようになります。（拡大版）

19 r generalized-linear-model heteroscedasticity lm

2

Rのロジスティック成長曲線を近似する最も簡単な方法は何ですか？

これは、明確にするために、カテゴリ変数を予測するために回帰を使用するという意味でロジスティック回帰について話していないので、Googleにとって他のことほど簡単ではありません。ロジスティック成長曲線を特定のデータポイントに適合させることについて話しています。具体的には、は1958年から2012年までの特定の年であり、は年の11月の推定CO2 ppm（二酸化炭素の百万分の1）です。y xバツxxyyyバツバツx 今は加速していますが、ある時点で横ばいになります。ロジスティックカーブが必要です。これを行う比較的簡単な方法はまだ見つかりませんでした。

19 r nonlinear-regression curve-fitting logistic-curve

1

R（lme4）対Stata（xtmixed）のランダム効果の標準誤差

このデータを考慮してください： dt.m <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), occasion = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, …

19 r mixed-model stata lme4-nlme

1

Coxベースラインハザード

「腎臓カテーテル」データセットがあるとしましょう。Coxモデルを使用して生存曲線をモデル化しようとしています。Coxモデルを考えると：ベースラインハザードの推定値が必要です。組み込みのパッケージR関数を使用することで、次のように簡単に実行できます。h （t 、Z）= h0exp(b′Z）、h(t,Z)=h0exp⁡(b′Z)、h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) しかし、パラメータの特定の推定値のベースラインハザードのステップごとの関数を書きたい場合はどうすればよいbですか？私は試した： bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time k <- length(dt) risk <- exp(data.matrix(data[,-c(1:2)]) %*% beta) h <- rep(0,k) for(i in 1:k) …

19 r cox-model hazard

1

ggplot2でファセットの未使用レベルを削除する[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。去年閉鎖されました。 ggplot2sファセットで使用されていないレベルをドロップすることは可能ですか？これは私のコードです： tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") drop=Tスイッチを試しましたが、役に立ちません。何が間違っていますか？

19 r data-visualization ggplot2

4

RまたはSPSSを使用したリッカート応答の視覚化

2つのグループに82人の回答者（グループAの43人とグループBの39人）があり、それぞれ1〜5の65のリッカート質問の調査を完了しました（強く同意する-強く同意しない）。したがって、66列（質問ごとに1 +グループ割り当てを示す1）と82行（回答者ごとに1）のデータフレームがあります。 RまたはSPSSを使用することで、このデータを視覚化する優れた方法を誰もが知っています。このようなものが必要です：（Jason Bryerから）しかし、コードの最初のセクションを機能させることはできません。あるいは、以前の相互検証された投稿からリッカートデータを視覚化する方法の非常に良い例を見つけました：リッカートアイテムレスポンスデータを視覚化するが、RまたはSPSSを使用してこれらの中心カウントグラフまたは積み上げ棒グラフを作成する方法に関するガイドも指示もありません。

19 r data-visualization spss likert

7

Rのスライディングウィンドウの平均

小さいスライドに沿ってウィンドウの平均を報告したい値のベクトルがあります。たとえば、次の値のベクトルの場合： 4, 5, 7, 3, 9, 8 ウィンドウサイズが3でスライドが2の場合、次のようになります。 (4+5+7)/3 = 5.33 (7+3+9)/3 = 6.33 (9+8)/3 = 5.67 そして、これらの値のベクトルを返します： 5.33, 6.33, 5.67 私のためにこれを行う簡単な関数はありますか？また、ウィンドウスタートのインデックスも返された場合は、ボーナスが追加されます。この例では、1,3,5

19 r

2

バイナリの結果と予測子でロジスティック回帰を使用するのは理にかなっていますか？

バイナリの結果変数{0,1}と予測変数{0,1}があります。私の考えでは、他の変数を含めてオッズ比を計算しない限り、ロジスティックを行うのは理にかなっていません。 1つのバイナリ予測子では、確率の計算はオッズ比に対して十分ではないでしょうか？

18 r regression probability logistic odds-ratio

1

t検定とANOVAが2つのグループの比較で異なるp値を与えるのはなぜですか？

ANOVAに関するウィキペディアの記事では、最も単純な形式では、ANOVAはいくつかのグループの平均が等しいかどうかの統計的検定を提供するため、t検定を3つ以上のグループに一般化します。これについての私の理解は、ANOVAは2グループ比較に関してt検定と同じであるということです。ただし、以下の私の簡単な例（R）では、ANOVAとt検定は似ていますが、わずかに異なるp値を与えます。誰でもその理由を説明できますか？ x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(>F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(>F)`[1] # 0.8190279

18 r hypothesis-testing anova t-test

6

ワイン評価を予測する線形回帰または順序ロジスティック回帰（0〜10）

ここから、0から10までの値を持つ各エントリに関連付けられた従属評価を持つ11の数値独立変数で構成されるワインデータがあります。これは、変数と関連する変数との関係を調べるために回帰モデルを使用するのに最適なデータセットになります評価。しかし、線形回帰は適切でしょうか、または多項/順序付きロジスティック回帰を使用する方が良いでしょうか？ロジスティック回帰は、特定のカテゴリ、つまり連続従属変数ではないが、（1）11のカテゴリ（少し多すぎる？）があり、（2）検査時に、それらのカテゴリのうち6〜7のデータ、つまり残りの5-4のカテゴリには、データセットに例がありません。一方、線形回帰では、0〜10の間の評価を線形に推定する必要があります。これは、私が見つけようとしているものに近いようです。それでも、従属変数はデータセット内で連続的ではありません。どちらが良いアプローチですか？注：分析にRを使用しています回答に記載されているいくつかのポイントに対処して編集します。これは実際には大学のコースであるため、ビジネス目標はありません。タスクは、私が適切と思う方法で、選択したデータセットを分析することです。評価の分布は正常に見えます（ヒストグラム/ qqプロット）。データセットの実際の値は3〜8です（技術的には0〜10です）。

18 r regression logistic ordered-logit

1

Hartigansのディップテストの解釈

経験的に得たいくつかの分布の双峰性の強度を定量化する方法を見つけたいと思います。私が読んだことから、二峰性を定量化する方法についてはまだ議論があります。私は、Rで唯一利用できると思われるHartigansのディップテストを使用することを選択しました（元の論文：http : //www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf）。Hartigansのディップテストは、次のように定義されます。「ディップテストは、経験的分布関数とその最大差を最小化する単峰性分布関数との間のすべてのサンプルポイントでの最大差によって、サンプルのマルチモダリティを測定します」。この統計を使用する前にどのように解釈すべきかを完全に理解したいと思います。分布がマルチモーダルの場合、ディップテストが増加することを期待していました（「ユニモーダル分布との最大差」として定義されているため）。しかし、マルチモーダル分布に関するウィキペディアのページで、「0.05未満の値は有意な二峰性を示し、0.05を超え0.10未満の値は限界的有意性のある二峰性を示唆している」と読むことができます。。そのような声明はこの論文から来ています（図2）。この論文によると、分布がバイモーダルの場合、ディップテストインデックスは0に近くなります。それは私を混乱させます。 Hartigansのディップテストを正しく解釈するために、いくつかの分布を作成し（元のコードはこちらから）、exp（mu2）の値を増やしました（これから「Bimodularityの強度」と呼ばれます-編集：「Intensity」と呼ぶ必要があります）二峰性の」）二峰性を取得します。最初のグラフでは、分布の例を見ることができます。次に、これらの異なるシミュレートされた分布に関連付けられたdiptestインデックス（2番目のグラフ）とp値（3番目のグラフ）（パッケージdiptest）を推定しました。使用されるRコードは、私の投稿の最後にあります。ここで示すのは、分布が二峰性の場合、ディップテストインデックスが高く、P値が低いことです。これは、インターネットで読むことができるものとは反対です。私は統計学の専門家ではないので、ハルティガンの論文をほとんど理解していませんでした。Hartigansのディップテストを解釈する正しい方法についてのコメントを取得したいと思います。どこか間違ってる？皆さん、ありがとうございました。よろしく、 TA シミュレートされた分布の例： Hartiganのディップテストインデックスが関連付けられています。 Hartiganのディップテストp.value関連： library(diptest) library(ggplot2) # CONSTANT PARAMETERS sig1 <- log(3) sig2 <- log(3) cpct <- 0.5 N=1000 #CREATING BIMOD DISTRIBUTION bimodalDistFunc <- function (n,cpct, mu1, mu2, sig1, sig2) { y0 <- rlnorm(n,mean=mu1, sd = sig1) y1 <- rlnorm(n,mean=mu2, sd = …

18 r distributions

タグ付けされた質問 「r」

タグ付けされた質問「r」