統計とビッグデータ r

1

ARMA / ARIMAモデルがうまく機能しない、非常に非線形なデータを見ています。しかし、いくつかの自己相関があり、非線形自己相関の方が良い結果が得られると思います。 1 /ランク相関のPACFに相当するものはありますか？（Rで？） 2 /非線形/ランク相関（R内）のARMAモデルに相当するものはありますか？

9 r correlation nonparametric garch arma

4

2 X 3テーブルで複数の事後カイ2乗検定を実行する方法

私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100％の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか？ありがとう！

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

Rで2つのglmモデルを組み合わせる簡単な方法はありますか？

で作成されたRのロジスティック回帰モデルが2つありglm()ます。どちらも同じ変数を使用しますが、マトリックスの異なるサブセットを使用して作成されました。係数の平均を与える平均モデルを取得し、これをpredict（）関数で使用する簡単な方法はありますか？ [この種の質問をプログラミングサイトに投稿する必要がある場合は、お知らせください。投稿します] ありがとう

9 r generalized-linear-model

3

ウィルコクソン検定を実行する前にジッターすることは間違っていますか？

スクリプトをwilcox.test記述してを使用してデータをテストしましたが、結果が得られたとき、すべてのp値は1に等しくなりました。データをテストする前にジッターを使用できることをいくつかのWebサイトで読みました（前述の関係を避けるため）。私はこれをしました、そして今、私は許容できる結果を持っています。これを行うのは間違っていますか？ test<- function(column,datacol){ library(ggplot2) t=read.table("data.txt", stringsAsFactors=FALSE) uni=unique(c(t$V9)) for (xp in uni) { for(yp in uni) { testx <- subset(t, V9==xp) testy <- subset(t, V9==yp) zz <- wilcox.test(testx[[datacol]],jitter(testy[[datacol]])) p.value <- zz$p.value } } } これはの出力です dput(head(t)) structure(list(V1 = c(0.268912, 0.314681, 0.347078, 0.286945, 0.39562, 0.282182), V2 = c(0.158921, 0.210526, 0.262024, 0.322006, 0.133417, …

9 r nonparametric ties

2

機能の選択にカーネルPCAを使用することは可能ですか？

PCAが使用されるのと同じ方法で、潜在的セマンティックインデックス（LSI）にカーネル主成分分析（kPCA）を使用することは可能ですか？ prcompPCA関数を使用してRでLSIを実行し、最初のコンポーネントから最も負荷の高い機能を抽出します。これにより、コンポーネントを最もよく表す機能が得られます。kkk kpca（kernlibパッケージから）関数を使用しようとしましたが、主成分の機能の重みにアクセスする方法がわかりません。カーネルメソッドを使用する場合、これは全体的に可能ですか？

9 r pca feature-selection kernel-trick

3

Rの正の安定分布

正の安定分布は、歪度パラメーター、スケールパラメーター、位置パラメーターなどの4つのパラメーターで記述されます。-呼び出されたインデックスパラメータ。がゼロの場合、分布は中心に対称であり、正（または負）の場合、分布は右（左）に歪む。が減少すると、安定した分布により太い裾が可能になります。σ > 0 μ ∈ （- ∞ 、∞ ）α ∈ （0 、2 ] β μ αβ∈ [ - 1 、1 ]β∈[−1,1]\beta\in[-1,1]σ> 0σ>0\sigma>0μ ∈ （- ∞ 、∞ ）μ∈(−∞,∞)\mu\in(-\infty,\infty)α ∈ （0 、2 ]α∈(0,2]\alpha\in(0,2]ββ\betaμμ\muαα\alpha 場合、厳密に1未満であり、に対して配信制限しのサポート。β = 1 （μ 、∞ ）αα\alphaβ=1β=1\beta=1(μ,∞)(μ,∞)(\mu,\infty) 密度関数には、パラメーターの値の特定の組み合わせについてのみ、閉じた形式の式があります。場合、、、およびそれは（式（4.4を参照）であり、ここ）。α < 1 β = 1 σ = αμ=0μ=0\mu=0α<1α<1\alpha<1β=1β=1\beta=1σ=ασ=α\sigma=\alpha f(y)=−1πy∑∞k=1Γ(kα+1)k!(−y−α)ksin(αkπ)f(y)=−1πy∑k=1∞Γ(kα+1)k!(−y−α)ksin⁡(αkπ)f(y) = -\frac{1}{\pi y} …

9 r stable-distribution

1

部分決定係数のR実装

誰かが部分決定係数を計算する提案やパッケージを持っていますか？部分決定係数は、縮小モデルでは説明できない変動のパーセントとして定義できますが、完全モデルでは指定された予測子で説明できます。この係数は、1つ以上の追加の予測子が、より完全に指定された回帰モデルで役立つかどうかについての洞察を提供するために使用されます。 2つのモデルを推定し、それらのANOVAテーブルを生成すると、部分的なr ^ 2の計算は比較的簡単になります。部分的なr ^ 2の計算は次のとおりです。（SSEreduced-SSEfull）/ SSEreduced 多重線形回帰モデルに対してこれを計算する、この比較的単純な関数を作成しました。私はこの関数が同様に機能しない可能性があるRの他のモデル構造に不慣れです： partialR2 <- function(model.full, model.reduced){ anova.full <- anova(model.full) anova.reduced <- anova(model.reduced) sse.full <- tail(anova.full$"Sum Sq", 1) sse.reduced <- tail(anova.reduced$"Sum Sq", 1) pR2 <- (sse.reduced - sse.full) / sse.reduced return(pR2) } このタスクを実行するためのより堅牢な機能および/または上記のコードのより効率的な実装に関する提案やヒントをいただければ幸いです。

9 r regression anova

2

lmerモデルを正しく指定していますか？

私はGoogleとこのサイトを調べましたが、それでもlme4ライブラリのlmer関数について混乱しています。複数レベルの構造を持つさまざまな精神科病棟から収集したデータがあります。簡単にするために、レベル2とレベル1の変数を2つ選択しますが、実際にはさらにいくつかあります。レベル2-WardSize [これは病棟にいる人数]＆WAS [これは病棟がどの程度「すてき」かを示す尺度です] どの病棟にいるのかを「病棟」と呼ばれるRに伝えるグループ化変数レベル1-性別（これは明らかに性別です）＆BSITotal [これは症状の重症度の尺度です] 結果はSelfrejectで、これもまたそのように聞こえます。私はこの式を持っています： help = lmer（formula = Selfreject〜WardSize + WAS + Gender + BSITotal +（1 | Ward））これは、「各個人が自分の性別と症状の重症度に関連するスコアを持っていること、また、病棟のサイズとそれがいかに「素敵」かという病棟レベルの効果があることを願っています。これは正しいです？混乱しているのは、最後に与えられた病棟レベルの切片を除いて、Rがレベル1変数とレベル2変数を区別する方法を理解できないことです。もし誰かがその表記法を説明できれば、私のような馬鹿がそれを理解できるようになればさらに良いでしょう。どうもありがとう！

9 r mixed-model lme4-nlme

4

mgcvのplot.gamで使用される値を取得する方法

mgcvパッケージ(x, y)でのプロットplot(b, seWithMean=TRUE)に使用される値を知りたいのですが。これらの値を抽出または計算する方法を誰かが知っていますか？次に例を示します。 library(mgcv) set.seed(0) dat <- gamSim(1, n=400, dist="normal", scale=2) b <- gam(y~s(x0), data=dat) plot(b, seWithMean=TRUE)

9 r time-series smoothing mgcv

1

ウェーブレット多重解像度分析における境界効果

ウェーブレット分解における境界の影響を最小限に抑える方法は何ですか？私はRとパッケージのwavelimを使用します。私は例えば関数を見つけました ?brick.wall だが使い方はあまり使いません。いくつかの係数を削除するのが最善の解決策かどうかはわかりません。どこでも同じではないウェーブレットがいくつか存在し、境界で形状が変化することをどこかで読んだことがあります。何か案は？

9 r signal-processing wavelet

4

Rで統計的手順を検索する方法は？

希望する特定の統計手順を検索できるRパッケージ、Webサイト、またはコマンドはありますか？たとえば、Box-Cox変換を含むパッケージを検索したい場合、website / package / commandは「MASS」を返し、boxcox()関数を参照する可能性があります。 Box-Coxのようなものでかなり簡単ですが、より困難な手順を見つけたり、関数の機能で検索したりできることを期待していました（「データフレームへの列の連結」が発生する可能性がありますcbind()）。このようなものはありますか？

9 r

1

nlm（）関数のコード変数

Rには、Newton-Raphsonアルゴリズムを使用して関数fの最小化を実行する関数nlm（）があります。特に、この関数は次のように定義された変数コードの値を出力します。最適化プロセスが終了した理由を示す整数をコーディングします。 1：相対勾配はゼロに近く、現在の反復はおそらく解決策です。 2：許容範囲内で連続して反復します。現在の反復はおそらく解決策です。 3：最後のグローバルステップで、推定よりも低いポイントを特定できませんでした。推定値が関数の近似極小値であるか、steptolが小さすぎます。 4：反復制限を超えました。 5：最大ステップサイズstepmaxが5回連続して超えました。関数が下で無制限であるか、上からある方向に有限値に漸近するか、stepmaxが小さすぎるかのいずれかです。誰かが私に（変数が1つしかない関数の簡単な図を使用しているかもしれません）、対応する状況1-5について説明できますか？たとえば、状況1は次の図に対応する場合があります。前もって感謝します！

9 r minimum

1

Tukey HSDテストは、t.testの未補正のP値よりもどのように重要ですか？

私は、「二元配置分散分析の事後的なペアワイズ比較」という投稿（この投稿に対応する）を見つけました。 dataTwoWayComparisons <- read.csv("http://www.dailyi.org/blogFiles/RTutorialSeries/dataset_ANOVA_TwoWayComparisons.csv") model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) summary(model1) # Treatment is signif pairwise.t.test(dataTwoWayComparisons$StressReduction, dataTwoWayComparisons$Treatment, p.adj = "none") # no signif pair TukeyHSD(model1, "Treatment") # mental-medical is the signif pair. （出力はジャバラ付属）ペアになっている（調整されていないp値）t検定が失敗したときに、Tukey HSDが有意なペアを見つけることができる理由を誰かが説明できますか？ありがとう。これがコード出力です > model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) > summary(model1) # Treatment is signif Df Sum …

9 r multiple-comparisons t-test post-hoc tukey-hsd

7

Rを使用して400万のエッジネットワークの中心性測定を計算する方法

私は、互いに通信する人々を表す有向ネットワークの400万エッジのCSVファイルを持っています（たとえば、ジョンはメアリーにメッセージを送信し、メアリーはアンにメッセージを送信し、ジョンはメアリーに別のメッセージを送信します）。私は2つのことをしたいと思います：各個人の次数、（おそらく）固有ベクトル中心性測度の次数を求めます。ネットワークの視覚化を取得します。私のラップトップには電力があまりないので、Linuxサーバーのコマンドラインでこれを実行したいと思います。そのサーバーとstatnetライブラリにRをインストールしました。私が見つかりました。この2009年のポスト私は同じことをやろうとしていると、それで問題が発生したよりも多くの有能な誰かのを。だから私は他の誰かがこれを行う方法についてのポインタを持っているのではないかと思っていました。ちょうどあなたにアイデアを与えるために、これは私のCSVファイルがどのように見えるかです： $ head comments.csv "src","dest" "6493","139" "406705","369798" $ wc -l comments.csv 4210369 comments.csv

9 r data-visualization networks

1

特異値分解を使用した線形回帰モデルからの分散共分散行列の計算

p個のリグレッサ、n個の観測値の設計行列があり、パラメータのサンプル分散共分散行列を計算しようとしています。私はsvdを使用して直接計算しようとしています。私はデザイン行列のSVDを取る場合、私は三つの成分を得る、Rを使用しています：行列であるN × P、行列Dである1 × 3（おそらく固有値）、及び行列Vである3 × 3。Dを対角化し、非対角に0がある3 × 3行列にしました。UUUn×pn×pn \times pDDD1×31×31\times 3VVV3×33×33\times 3DDD3×33×33\times 3 おそらく、共分散の式は次のとおりです。ただし、ですが、行列は一致せず、Rの組み込み関数にも近づきません。誰かアドバイスや参考資料はありますか？私はこの分野で少し熟練していないことを認めます。VD2V′VD2V′V D^2 V'vcov

9 r regression

タグ付けされた質問 「r」

タグ付けされた質問「r」