タグ付けされた質問 「bioinformatics」

分子生物学、遺伝学、ゲノミクスなどの分野のデータを整理、維持、分析することを含む、コンピューティングと生物科学の岐路に立つ分野

11
マルコフ連鎖と隠れマルコフモデルを学習するためのリソース
マルコフ連鎖とHMMについて学ぶためのリソース(チュートリアル、教科書、ウェブキャストなど)を探しています。私の経歴は生物学者であり、現在バイオインフォマティクス関連のプロジェクトに携わっています。 また、マルコフモデルとHMMを十分に理解するために必要な数学的背景は何ですか? 私はグーグルを使って見回してきましたが、今のところ良い入門チュートリアルをまだ見つけていません。ここの誰かがよく知っていると思う。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

2
負の二項分布の連続一般化
負の二項分布は非負の整数で定義され、確率質量関数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.同じ式(k∈N0k∈N0k\in \mathbb N_0をx \ in \ mathbb R _ {\ ge 0}で置き換える)で定義された非負の実数上の連続分布を考慮することは意味がありx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0}ますか?二項係数は(k + 1)\ cdot \ ldots \ cdot(k + r-1)の積として書き換えることができます(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)。これは任意の実数kに対して明確に定義されていますkkk。したがって、PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. より一般的には、二項係数をガンマ関数で置き換えて、rの非整数値を許可できますrrr。 f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. 有効な配布ですか?名前はありますか?用途はありますか?多分化合物か混合物か?平均と分散(およびPDFの比例定数)の閉じた式はありますか? (現在、NB混合モデル(固定r=2r=2r=2)を使用してEMで近似する論文を研究しています。ただし、データは、正規化後の整数、つまり整数ではありません。可能性と非常に合理的な結果を得るので、すべてがうまく機能しているようです。私はそれが非常に不可解であることがわかりました。この質問はNB GLM に関するものではないことに注意してください。

4
人工ニューラルネットワークから人間の脳について何を学ぶことができますか?
私の質問/タイトルはあまり具体的ではないことを知っているので、それを明確にしようとします: 人工ニューラルネットワークの設計は比較的厳密です。もちろん、一般的に、それらは生物学の影響を受け、実際のニューラルネットワークの数学的モデルを構築しようとしますが、実際のニューラルネットワークの理解は正確なモデルの構築には不十分です。したがって、正確なモデルや、実際のニューラルネットワークに「近い」ものは考えられません。 私の知る限り、すべての人工ニューラルネットワークは実際のニューラルネットワークからはかけ離れています。生物学には、標準の古典的な完全に接続されたMLPは存在しません。リカレントニューラルネットワークには実際の神経可塑性がないため、RNNの各ニューロンには同じ「フィードバックアーキテクチャ」がありますが、実際のニューロンは情報を個別に保存および共有します。畳み込みニューラルネットワークは効果的で人気がありますが、(たとえば)人間の脳の画像処理はごく少数の畳み込み層で構成されていますが、最新のソリューション(GoogLeNetなど)はすでに数十層を使用しています... 、彼らは人間のパフォーマンスにも近くありません。特に、実際のニューラルネットワークと比較して、かなりの量のレイヤーとデータ削減が必要なため、「レイヤーごとのパフォーマンス」を考える場合。 さらに、私の知る限り、モジュール式の自己拡張/自己再構築人工ニューラルネットワークでさえ、実際のニューラルネットワークの巨大な適応性と比較してかなり「固定的かつ静的」です。生物学的ニューロンには通常、ニューロンを非常に多様な異なる領域や他のニューロンに接続する数千の樹状突起があります。人工ニューラルネットワークは、はるかに「単純」です。 それでは、人間の脳/実際のニューラルネットワークについて、人工ニューラルネットワークから学べることはありますか?それとも、古典的な静的アルゴリズムよりも優れたパフォーマンスを発揮するソフトウェアを作成しようとするだけなのでしょうか(あるいは、そのようなアルゴリズムが失敗するようなことをするのでしょうか)。 誰かがこのトピックに関する(できれば科学的な)情報源を提供できますか? 編集:より多くの回答が高く評価されています(:

3
非線形相関を検出するためのMICアルゴリズムは直感的に説明できますか?
最近では、2つの記事を読みました。1つ目は相関の履歴に関するもので、2つ目は最大情報係数(MIC)と呼ばれる新しい方法に関するものです。変数間の非線形相関を推定するMICメソッドを理解することに関して、あなたの助けが必要です。 さらに、Rでの使用方法については、著者のWebサイト(ダウンロード)で確認できます。 これがこの方法を議論し理解するための良いプラットフォームになることを願っています。この方法の背後にある直感と、著者が述べたようにどのように拡張できるかを議論することへの私の関心。 " ... MIC(X、Y)からMIC(X、Y | Z)への拡張が必要です。MICの安定した推定値を得るために必要なデータの量、外れ値に対する影響の程度、3 -またはそれは欠場する高次元の関係、そしてより多くのMICは大きな前進ですが、取るために、より多くのステップがあります。」

2
非常に不均衡なデータセットのトレーニングアプローチ
非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。 1)トレーニングセット全体に重み付きSVMを使用する(P:1200、N:12000) 2)サンプリングされたトレーニングセット(P:1200、N:1200)に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。 どのアプローチが優れているかを決定するための理論的なガイダンスはありますか?テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか?

4
DNA配列決定のための負の二項分布のフレーミング
負の二項分布は、バイオインフォマティクスのカウントデータ(具体的には、特定の実験からのゲノムの特定の領域内で予想されるシーケンスリードの数)の一般的なモデルになりました。説明は異なります: ポアソン分布のように機能するものの、追加のパラメーターがあり、必ずしも平均と等しくない分散で、真の分布をより自由にモデル化できるものとして説明する人もいます ポアソン分布の重み付き混合として説明する人もいます(ポアソンパラメーターにガンマ混合分布がある) 特定の数の失敗を見る前にベルヌーイ試行の成功の数をモデル化するような負の二項分布の伝統的な定義でこれらの理論を二乗する方法はありますか?それとも、ポアソン分布とガンマ混合分布の重み付き混合が負の二項分布と同じ確率質量関数を持っているという幸福な偶然と考えるべきでしょうか?

8
機械学習の「ホットアルゴリズム」とは何ですか?
これは、機械学習を学び始めた人からの素朴な質問です。私は最近、マースランドの本「機械学習:アルゴリズムの視点」を読んでいます。入門書としては便利だと思いますが、現在、最高の結果を出している高度なアルゴリズムについて説明します。私は主にバイオインフォマティクスに興味があります。生物学的ネットワークのクラスター化と生物学的配列のパターンの発見、特に一塩基多型(SNP)分析に適用されます。レビューや本を読むことをお勧めしてもらえますか?

7
統計理論とアプリケーションを理解する
私は最近、工学および数学をバックグラウンドとして医学および生物学のモデリングの修士号を取得しました。私の教育プログラムには、かなり高い成績で管理した数学的統計学のコース(以下のリストを参照)がかなり含まれていましたが、統計学の理論と応用の両方を見つめていました。「純粋な」数学と比較して、統計は本当に意味がありません。特に、ほとんどの統計学者(私の過去の講師を含む)が使用する表記法と言語は煩わしく複雑であり、これまでに見たリソース(ウィキペディアを含む)には、簡単に関連し、与えられた理論に関連付けることができる簡単な例がありませんでした。 .. これが背景です。また、特にバイオインフォマティクスの分野では、統計をしっかりと把握しなければ、研究者/エンジニアとしてのキャリアを積むことはできないという現実を実感しています。 私はより経験豊富な統計学者/数学者からいくつかのヒントを得られることを望んでいました。上記のこの問題をどのように克服できますか?良いリソースを知っていますか。書籍、電子書籍、オープンコース(iTunesまたはOpenCourseware for exを使用)など。 編集:私が述べたように、私は統計の一般的なタイトルの下で大部分の文学にかなり否定的に偏っています、そして統計のブランチごとに多くの(そして高価な)コースブックを買うことができないので、必要なもの本の点で は、物理学のためのTipler&Moscaと似ていますが、統計のためです。 ティプラーを知らない人のために。それは、高等研究中に遭遇する可能性のある主題の大部分をカバーする大きな教科書であり、それぞれ基本的な紹介からやや深い詳細までそれらを提示します。基本的には完璧な参考書で、Uniで最初の1年間に購入しましたが、それでもときどき使用しています。 統計に関するコース: 大規模な紹介コース、 定常確率過程、 マルコフ過程、 モンテカルロ法 生存分析

2
RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算
うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。 実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。 つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。 以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。 したがって:C = ChIPチップが強化された遺伝子の総数= 400。 私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか?言い換えると、BとC(100遺伝子)の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか?これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。 オンライン計算機(stattrek.com)を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P(x = 100)= 0.00224050636447747について次の結果が得られます BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか?1つの遺伝子が濃縮される可能性が1:5(15,000のうち3,000)である場合は、そうではありません。そのため、上記で計算したP(x = 100)が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2%の確率に相当します。これはもっと高くないでしょうか? 15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます(1:5)。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。 私はまた、Rのdhyper関数またはphyper関数を使用して(別の投稿で見たものを使用して)解決策を考え出しました:A =ゲノム内のすべての遺伝子(15,000)B = RNA-Seq濃縮遺伝子(3,000)C = ChIP -チップ濃縮遺伝子(400)これがRの入出力です(以前のstackexchangeポストから変更)。 > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, …

2
遺伝子重複レベルによる濃縮分析
生物学的背景 時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。 顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。 そして今、数学的問題: ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。 以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


3
統計学と情報学の違いは何ですか?
私たちは常に統計はデータを扱っているだけだと言っています。しかし、情報学もデータ分析から知識を得ていることも知っています。たとえば、バイオインフォマティクスの人々は完全に生物統計学なしで行くことができます。統計学と情報学の本質的な違いは何か知りたい。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.