統計とビッグデータ microarray

3

私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか？フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか？エラー率のOOB推定は、引用するのに最適な統計ですか？

75 r machine-learning classification random-forest microarray

1

分位正規化はどのように機能しますか？

マイクロアレイを使用した遺伝子発現研究では、個人間、遺伝子間で強度を比較できるように、強度データを正規化する必要があります。概念的およびアルゴリズム的に、「分位点正規化」はどのように機能しますか？また、これを非統計学者にどのように説明しますか？

15 genetics normalization microarray

2

RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算

うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。したがって：C = ChIPチップが強化された遺伝子の総数= 400。私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか？言い換えると、BとC（100遺伝子）の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか？これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。オンライン計算機（stattrek.com）を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P（x = 100）= 0.00224050636447747について次の結果が得られます BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか？1つの遺伝子が濃縮される可能性が1：5（15,000のうち3,000）である場合は、そうではありません。そのため、上記で計算したP（x = 100）が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2％の確率に相当します。これはもっと高くないでしょうか？ 15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます（1：5）。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。私はまた、Rのdhyper関数またはphyper関数を使用して（別の投稿で見たものを使用して）解決策を考え出しました：A =ゲノム内のすべての遺伝子（15,000）B = RNA-Seq濃縮遺伝子（3,000）C = ChIP -チップ濃縮遺伝子（400）これがRの入出力です（以前のstackexchangeポストから変更）。 > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, …

13 r genetics bioinformatics microarray biostatistics

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ

以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコードこれが私のRコードです： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

2つの遺伝子発現サンプル間の重複は重要ですか？

私は、熱ショックによって引き起こされたストレスに対する酵母（5000個の遺伝子を含む）の応答を研究する実験を行いました。37℃で過剰発現している48遺伝子のリストと42℃で過剰発現している145遺伝子のリストがあります。それらの両方で過剰発現する38の遺伝子があります。偶然にも、両方で1つの遺伝子のみが過剰発現すると予想していましたが、取得したオーバーラップが有意である場合、どうすれば計算できますか？どうすれば値を取得できますか？私は生物統計学や数学のソフトウェアについて何も知りません。どうもありがとうございます！！！どんな助けでも大歓迎です:)ppp

8 statistical-significance microarray

3

時間経過実験における遺伝子のクラスター化

時系列のクラスタリング、具体的にはクラスタリングに関するクエリをいくつか見ましたが、それらが私の質問に答えるとは思いません。背景：酵母での時間経過実験で遺伝子をクラスター化したい。t1、 t2、 t3 、 t4の 4つの時点と、遺伝子の総数Gがあります。私はデータを行列Mの形式で持っています。ここで、列は処理（または時点） t1 t2 t3 および t4 を表し、行は遺伝子を表します。したがって、MはGx4行列です。問題：すべての時点t1、 t2、 t3 、および t4 で、また特定の時点tiで同じように動作する遺伝子をクラスター化したい（iは{1、2、3、4}にある）（両方のクラスタリングを組み合わせた場合、ある時点でのクラスタリングは、複数の時点でのクラスタリングよりも重要です。これに加えて、ヒートマップも描きたいです。私の解決策：以下のRコードを使用して、ヒートマップとhclustRの関数を使用したクラスターを取得します（ユークリッド距離で階層的クラスタリングを実行します）。 row.scaled.expr <- (expr.diff - rowMeans(expr.diff)) / rowSds(expr.diff) breaks.expr <- c(quantile(row.scaled.expr[row.scaled.expr < 0], seq(0,1,length=10)[-9]), 0, quantile(row.scaled.expr[row.scaled.expr > 0], seq(0,1,length=10))[-1] ) blue.red.expr <- maPalette(low = "blue", high = "red", mid = …

8 r machine-learning clustering microarray

タグ付けされた質問 「microarray」

タグ付けされた質問「microarray」