統計とビッグデータ genetics

6

機能の選択と機械学習について少し混乱しているので、手伝ってくれないかと思っていました。2つのグループに分類され、1000の機能を持つマイクロアレイデータセットがあります。私の目的は、理論的に他のデータセットに適用してそれらのサンプルを最適に分類できるシグネチャで少数の遺伝子（私の特徴）（10-20）を取得することです。サンプル数が少ないため（<100）、テストとトレーニングセットを使用せず、Leave-one-outクロス検証を使用して堅牢性を判断しています。サンプルの分割ごとに特徴選択を実行する必要があることを読みました。テストセットとして1つのサンプルを選択します残りのサンプルで機能選択を実行します選択した機能を使用して、機械学習アルゴリズムを残りのサンプルに適用しますテストセットが正しく分類されているかどうかをテストします 1に進みます。これを行うと、毎回異なる遺伝子を取得する可能性があります。それでは、「最終的な」最適な遺伝子分類子をどのように取得しますか。すなわち、ステップ6とは何ですか。最適とは、今後の研究で使用すべき遺伝子のコレクションです。たとえば、癌/正常なデータセットがあり、SVMに従って腫瘍タイプを分類する上位10の遺伝子を見つけたいとします。診断テストとして使用できるかどうかを確認するために、さらなる実験で使用できる遺伝子とSVMパラメータのセットを知りたいです。

76 machine-learning classification cross-validation feature-selection genetics

6

1300年に生まれた特定の人から子孫になる可能性はどのくらいですか？

言い換えれば、以下に基づいて、pとは何ですか？これを人類学や社会科学ではなく数学の問題にし、問題を単純化するために、兄弟と最初のいとこが交尾することはなく、常に同じから交配相手が選択されることを除いて、母集団全体で交配相手が等しい確率で選択されると仮定します世代。 n1n1n_1初期人口 ggg世代数。 cccカップルあたりの子供の平均数。（答えに必要な場合、すべてのカップルがまったく同じ数の子供を持っていると仮定します。） zzz子供がいない人、およびカップルの一部とみなされない人の割合。 n2n2n_2最終世代の人口。（またはいずれかを指定する必要があり、（私は）他を計算できると思います。）n2n2n_2zzz ppp最終世代の誰かが初期世代の特定の人の子孫である確率。もちろん、これらの変数は変更、省略、または追加できます。簡単にするために、とは時間とともに変化しないと仮定しています。私はこれが非常に大雑把な見積もりを取得することを理解していますが、それは出発点です。ccczzz パート2（さらなる研究の提案）：合致がグローバルに均一な確率で選択されていないことをどのように考えることができますか？実際には、仲間は同じ地理的領域、社会経済的背景、人種、および宗教的背景である可能性が高くなります。これの実際の確率を調査せずに、これらの要因の変数はどのように作用するのでしょうか？これはどれほど重要ですか？

26 probability stochastic-processes genetics

4

テストが相関する複数のテストのp値の修正（遺伝学）

私は多くのテストからp値を取得しており、複数のテストを修正した後に実際に重要なものがあるかどうかを知りたいと思っています。複雑さ：私のテストは独立していません。私が考えている方法（FisherのProduct Methodの変形、Zaykin et al。、Genet Epidemiol、2002年）では、p値間の相関が必要です。この相関を推定するために、現在、ケースのブートストラップ、分析の実行、およびp値の結果ベクトルの相関について考えています。誰かがより良いアイデアを持っていますか？または、元の問題のより良いアイデア（相関テストでの複数のテストの修正）ですか？背景：遺伝子型（AA、Aaまたはaa）と共変量との相互作用により、被験者が特定の病気にかかっているかどうかをロジスティックに回帰しています。ただし、遺伝子型は実際には大量（30〜250）の一塩基多型（SNP）であり、これらは確かに独立ではなく、連鎖不平衡にあります。

24 correlation multiple-comparisons statistical-significance genetics

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

ゲノムワイド関連研究では、主成分は何ですか？

でゲノムワイド関連研究（GWAS）：主成分は何ですか？なぜ使用されるのですか？それらはどのように計算されますか？ PCAを使用せずにゲノムワイド関連研究を行うことはできますか？

20 pca genetics gwas

1

分位正規化はどのように機能しますか？

マイクロアレイを使用した遺伝子発現研究では、個人間、遺伝子間で強度を比較できるように、強度データを正規化する必要があります。概念的およびアルゴリズム的に、「分位点正規化」はどのように機能しますか？また、これを非統計学者にどのように説明しますか？

15 genetics normalization microarray

2

RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算

うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。したがって：C = ChIPチップが強化された遺伝子の総数= 400。私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか？言い換えると、BとC（100遺伝子）の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか？これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。オンライン計算機（stattrek.com）を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P（x = 100）= 0.00224050636447747について次の結果が得られます BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか？1つの遺伝子が濃縮される可能性が1：5（15,000のうち3,000）である場合は、そうではありません。そのため、上記で計算したP（x = 100）が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2％の確率に相当します。これはもっと高くないでしょうか？ 15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます（1：5）。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。私はまた、Rのdhyper関数またはphyper関数を使用して（別の投稿で見たものを使用して）解決策を考え出しました：A =ゲノム内のすべての遺伝子（15,000）B = RNA-Seq濃縮遺伝子（3,000）C = ChIP -チップ濃縮遺伝子（400）これがRの入出力です（以前のstackexchangeポストから変更）。 > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, …

13 r genetics bioinformatics microarray biostatistics

2

遺伝子重複レベルによる濃縮分析

生物学的背景時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。そして今、数学的問題：ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

11 generalized-linear-model contingency-tables fishers-exact genetics bioinformatics

1

生存分析のための電力分析

遺伝子シグネチャーが再発のリスクが低い被験者を特定すると仮定すると、人口の20％でイベントレートが0.5（ハザード比0.5）減少し、遡及的コホート研究のサンプルを使用するつもりです。 2つの仮説グループで等しくない数のサンプルサイズを調整する必要がありますか？たとえば、Collett Dを使用すると、2003年の第2版-第2版の医学研究における生存データのモデリングが必要です。必要なイベントの総数dは、 d=(Zα/2+Zβ/2)2p1p2(θR)2d=(Zα/2+Zβ/2)2p1p2(θR)2\begin{equation} d = \frac{(Z_{\alpha/2} + Z_{\beta/2})^2}{p_1 p_2 (\theta R)^2} \end{equation} ここで、及びZ β / 2が上側であるα / 2と上部β / 2標準正規分布のそれぞれのポイント、、。Zα/2Zα/2Z_{\alpha/2}Zβ/2Zβ/2Z_{\beta/2}α/2α/2\alpha/2β/2β/2\beta/2 特定の値については、 p1=0.20p1=0.20p_1 = 0.20 p2=1−p1p2=1−p1p_2 = 1 - p_1 θR=−0.693θR=−0.693\theta R = -0.693 、したがって Z 0.025 = 1.96α=0.05α=0.05\alpha = 0.05Z0.025=1.96Z0.025=1.96Z_{0.025}= 1.96 β=0.10β=0.10\beta = 0.10Z0.05=1.28Z0.05=1.28Z_{0.05} = 1.28 θR=logψR=log0.50=−0.693θR=log⁡ψR=log⁡0.50=−0.693\theta R …

11 survival power-analysis genetics

2

ソフトしきい値となげなわペナルティ

私はこれまでに高次元のデータセットを使用したペナルティ付き多変量解析で理解したことを要約しようとしていますが、ソフトしきい値対ラッソ（または）ペナルティの適切な定義を得るのに苦労しています。L1L1L_1 より正確には、スパースPLS回帰を使用して、ゲノムデータを含む2ブロックのデータ構造を分析しました（一塩基多型、ここでは、範囲が{0,1,2}のマイナーアレルの頻度を数値変数と見なします）。連続的な表現型（性格特性または脳の非対称性を定量化するスコア、連続変数としても扱われます）。アイデアは、最も影響力のある予測因子（ここでは、DNA配列の遺伝的変異）を分離して、個体間の表現型の変異を説明することでした。私は当初、罰則付きのPLS回帰と正則化されたCCAを特徴とするmixOmics Rパッケージ（以前はintegrOmics）を使用していました。Rコードを見ると、予測子の「スパース性」は、番目のコンポーネント、（アルゴリズム）に最も高い負荷（絶対値）を持つ上位変数を選択することによって簡単に誘導されることがわかりました。は反復であり、コンポーネントの変数の負荷を計算し、各反復で予測子ブロックを収縮します。概要については、スパースPLS：Omicsデータを統合するときの変数の選択を参照してください）。逆に、S。Keleşが共同で作成したsplsパッケージ（i i = 1 、… 、k k L 1kkk私iii = 1 、… 、ki=1,…,ki=1,\dots, kkkk同時次元削減し、変数選択のための回帰スパース部分最小二乗これらの著者によって行われたアプローチのより正式な説明については、）実装変数処罰のための-penalization。L1L1L_1 厳密な「全単射」、つまりソフトしきい値に基づく反復的な特徴選択と正則化の間に厳密な「全単射」があるかどうかは私には明らかではありません。だから私の質問は：2つの間に数学的な関連はありますか？L1L1L_1 参考文献 Chun、H.およびKelȩs、S.（2010）、同時次元削減と変数選択のためのスパース部分最小二乗法。王立統計学会誌：シリーズB、72、3-25。 Le Cao、K.-A.、Rossouw、D.、Robert-Granie、C.、and Besse、P.（2008）、A Sparse PLS for Variable Selection when Integrating Omics Data。遺伝学および分子生物学における統計的応用、7、第35条。

11 multivariate-analysis lasso feature-selection genetics

3

なぜ遺伝的関連研究で年齢二乗を共変量として使用するのですか？

なぜ遺伝的関連研究で年齢と年齢の2乗を共変量として使用するのですか？有意な共変量として識別されている場合は年齢の使用を理解できますが、年齢の2乗の使用については迷っています。

10 multiple-regression polynomial predictor bioinformatics genetics

3

場合、PCAを介したマハラノビス距離

私は行列、遺伝子の数であり、患者の数です。このようなデータを扱った人なら誰でも、は常によりも大きいことを知っています。特徴選択を使用して、をより妥当な数に下げましたが、はまだより大きいです。p n p n p p nn × pn×pn\times ppppんnnpppんnnppppppんnn 遺伝子プロファイルに基づいて患者の類似性を計算したいと思います。ユークリッド距離を使用することもできますが、マハラノビスは変数間の相関を考慮に入れるので、より適切に見えます。（この投稿で述べたように）問題は、マハラノビス距離、特に共分散行列が場合に機能しないことです。Rでマハラノビス距離を実行すると、次のエラーが発生します。n < pn<pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 これまでにこれを解決するために、PCAを使用しました。遺伝子を使用する代わりに、コンポーネントを使用しました。これにより、マハラノビス距離を計算できるようです。5つの成分は分散の約80％を表すため、ます。n > pn>pn > p 私の質問は次のとおりです。PCAを使用して患者間のマハラノビス距離を有意義に取得できますか、それとも不適切ですか？ときに機能する代替距離メトリックスはありますか？また、変数間に多くの相関関係がありますか？nn < pn<pn < pんnn

10 correlation pca genetics covariance distance-functions

1

GWASデータセットのPCAプロジェクションで、子供たちはどのようにして親をまとめることができますか？

IID座標各10,000次元空間で20個のランダムな点を取るN(0,1)N(0,1)\mathcal N(0,1)。それらを10個のペア（「カップル」）に分割し、各ペア（「子」）の平均をデータセットに追加します。次に、結果の30ポイントでPCAを実行し、PC1とPC2をプロットします。注目すべきことが起こります。それぞれの「家族」は、すべてが互いに近接する3組の点を形成します。もちろん、すべての子供は元の10,000次元の空間ではそれぞれの親に近いので、PCA空間でも親に近いと期待できます。ただし、PCA空間では、親の各ペアは互いに近接しています。ただし、元の空間ではそれらは単なるランダムなポイントです。 PCAプロジェクションでは、子供はどうやって親をまとめるのですか？ \quad\quad\quad\quad これは、子供たちが親よりも規範が低いという事実に何らかの影響を受けていることを心配するかもしれません。これは問題ではないようです：（x + y ）/ √として子供を生成する場合(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad この質問はおもちゃのデータセットを使用していますが、それは、私がゲノム全体の関連研究（GWAS）からの実世界のデータセットで観察した、ディメンションが単一ヌクレオチドの多型（SNP）であることに動機付けられています。このデータセットには、母・父・子のトリオが含まれていました。コード %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # children X …

9 pca python high-dimensional genetics gwas

1

オッズ比の標準誤差を計算する方法は？

ゲノムワイド関連研究からの2つのデータセットがあります。利用できる唯一の情報は、オッズ比と最初のデータセットのp値です。2番目のデータセットには、オッズ比、p値、および対立遺伝子頻度（AFD =疾患、AFC =コントロール）があります（例：0.321）。これらのデータのメタ分析を実行しようとしていますが、これを実行するための効果サイズパラメーターがありません。提供された情報のみを使用して、これらの各データのSEおよびOR信頼区間を計算する可能性はありますか？前もって感謝します例：利用可能なデータ： Study SNP ID P OR Allele AFD AFC 1 rs12345 0.023 0.85 2 rs12345 0.014 0.91 C 0.32 0.25 これらのデータを使用して、SEとCI95％ORを計算できますか？ありがとう

9 meta-analysis genetics

4

メタ分析でプールされた奇数比の信頼区間を計算する方法は？

ゲノムワイド関連研究からの2つのデータセットがあります。利用できる唯一の情報は、遺伝子型別の各SNPの奇数比と信頼区間（95％）です。これらの2つのオッズ比を比較するフォレストプロットを生成したいのですが、合計の信頼区間を計算して要約効果を視覚化する方法が見つかりません。プログラムPLINKを使用して固定効果を使用したメタ分析を実行しましたが、プログラムはこれらの信頼区間を表示しませんでした。このような信頼区間を計算するにはどうすればよいですか？利用可能なデータは次のとおりです。各研究の奇数比、 95％信頼区間と標準エラー。

9 confidence-interval meta-analysis genetics odds-ratio

タグ付けされた質問 「genetics」

タグ付けされた質問「genetics」