タグ付けされた質問 「sequence-analysis」


4
DNA配列決定のための負の二項分布のフレーミング
負の二項分布は、バイオインフォマティクスのカウントデータ(具体的には、特定の実験からのゲノムの特定の領域内で予想されるシーケンスリードの数)の一般的なモデルになりました。説明は異なります: ポアソン分布のように機能するものの、追加のパラメーターがあり、必ずしも平均と等しくない分散で、真の分布をより自由にモデル化できるものとして説明する人もいます ポアソン分布の重み付き混合として説明する人もいます(ポアソンパラメーターにガンマ混合分布がある) 特定の数の失敗を見る前にベルヌーイ試行の成功の数をモデル化するような負の二項分布の伝統的な定義でこれらの理論を二乗する方法はありますか?それとも、ポアソン分布とガンマ混合分布の重み付き混合が負の二項分布と同じ確率質量関数を持っているという幸福な偶然と考えるべきでしょうか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
行動シーケンスから協力を証明する方法
状況: 2羽の鳥(オスとメス)が侵入者から巣の卵を保護します。各鳥は、保護のために攻撃または脅威のいずれかを使用でき、存在する場合と存在しない場合があります。行動が補完的である可能性があるというデータから浮上しているパターンがあります-女性が脅威の表示を使用している間、男性の攻撃はその逆です。 私の質問は、そのような協力を統計的に証明するにはどうすればよいですか? または、誰かが同様の分析を扱う行動研究を知っていますか?私が見つけた逐次分析のほとんどはDNAに焦点を当てています。 ここではいくつかのダミーデータを提供していますが、私の元のデータセットは、巣を守るために正確に10分間記録された数十のペアで構成されています。したがって、すべての鳥の行動シーケンスは600ステートの長さです(1秒ごとにステートがあります)。これらの短いデータには、データセット全体と同様のパターンが含まれているはずです。 male_seq <- rep(c("absent","present","attack","threat","present","attack", "threat","present","attack","absent"), times = c(3,4,8,2,6,3,2,6,2,1)) female_seq <- rep(c("absent","present","threat","present","threat","present", "threat","attack","present","threat","attack","present", "attack","threat","absent"), times = c(2,6,2,1,2,1,1,3,5,3,1,3,3,2,2))

1
この質問を統計的に言い換える方法
ゲームのプレイヤーによるn回の試行からの観測を含むデータセットを分析しています。各プレーヤーの試行に関して1つ以上の記述子を指定して各試行の結果を予測する回帰モデルを構築している場合、データセットが与えられた特定の記述子が「意味のある」または「重要な」になる前にプレーヤーが何回試行する必要があるかを測定するにはどうすればよいですか? 良い例はダーツをする人々のグループでしょう。絶対的な初心者は目を閉じ、ダーツを投げ、雄牛の目を打つかもしれません。明らかに、それは純粋なチャンスであり、彼はこれまでにプレーしたことがなく、酔っ払っている可能性さえあることがわかっています。しかし、彼がさらに5本の投げ矢を投げ、その中からさらに3回ブルズアイに当たったとしましょう。彼は6本の投げ矢を投げて、50%の確率でブルズアイに当たりました。今、物事は疑わしくなっています... この真の初心者はどの時点で十分なブルズアイダーツを投げますか、そして彼が他のより経験豊富なプレーヤーよりも真面目な才能を持っていると言えるまでに何回の試行が必要ですか?統計でこの用語は何ですか、それについてどこでもっと知ることができますか? 免責事項:「有意性」や「観察」などの読み込まれた統計用語をできるだけ使用しないようにしましたが、ここでは特定の場所で適切であると感じました。 誰かが私を正しい方向に向けることができれば、それは素晴らしいことです。ありがとう!!

2
順次パターンの特定
マルウェアのwin-api呼び出しの長いリストであるシーケンスデータを使用しています。「マルウェアの動作」を特定する問題を、連続するパターンを見つけることの1つにキャストしようとしています。各API呼び出しを単一のアイテムのItemsetとして扱います。さまざまな可能な項目(API呼び出し)の数は非常に多くなります。 ここで、SPADEアルゴリズム(Zaki、SPADE:頻繁なシーケンスをマイニングするための効率的なアルゴリズム、機械学習、42、31〜60、2001も参照)を適用すると、メモリの問題が発生します。大きな語彙の多いシーケンスから順次パターンを見つけるためのより良い代替方法はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.