タグ付けされた質問 「biostatistics」

生物学または医療データの分析に適用される統計学。

5
連続変数とカテゴリー変数(名義変数)の相関
連続(従属変数)変数とカテゴリ(名目:性別、独立変数)変数の間の相関関係を見つけたいと思います。連続データは通常は配布されません。以前は、スピアマンのを使用して計算していました。しかし、私はそれが正しくないと言われました。ρρ\rho インターネットで検索しているときに、箱ひげ図がそれらがどの程度関連付けられているかについてのアイデアを提供できることがわかりました。ただし、ピアソンの積率係数やスピアマンのなどの定量化された値を探していました。これを行う方法について私を助けてもらえますか?または、どの方法が適切かを教えてください。ρρ\rho Point Biserial Coefficientは正しいオプションでしょうか?

3
最小/最大値のみがわかっているデータの統計的方法
正確な値が不明なデータを扱う統計のブランチはありますが、各個人について、値の上限または下限を知っていますか? 私の問題の主な原因は、統計用語で表現するのに苦労しているという事実にあると思われますが、例を挙げて説明するとわかりやすくなります。 ある時点でAのメンバーがBに「遷移」できるように、2つの連結された集団AAAとBBBがあるとしますAAABBBが、その逆は不可能です。遷移のタイミングは可変ですが、ランダムではありません。たとえば、AAAは「子孫のない個人」であり、BBB「少なくとも1人の子孫を持つ個人」です。この進行が起こる年齢に興味がありますが、断面データしかありません。任意の個人について、それらがAAAまたはに属しているかどうかを確認できますBBB。これらの個人の年齢も知っています。母集団Aの各個人についてAAA、移行時の年齢が現在の年齢よりも大きくなることを知っています。同様に、メンバーのBBB場合、移行時の年齢が現在の年齢よりも低いことを知っています。しかし、私は正確な値を知りません。 移行の時代と比較したい他の要因があるとしましょう。たとえば、私は個人の亜種や体の大きさが最初の子孫の年齢に影響するかどうかを知りたいです。私は間違いなくそれらの質問に役立ついくつかの有用な情報を持っています。平均して、の個人のうちAAA、高齢の個人は後の移行を持っています。しかし、特に若い個人にとっては、情報は不完全です。また、母集団についても同様ですBBB。 この種のデータを処理する確立された方法はありますか?適切な場所から始めるために、このような分析を実行するための完全な方法、必ずしもいくつかの検索用語または有用なリソースが必要なわけではありません! 警告:AAAからへの移行BBBは瞬間的であるという単純な仮定を立てています。また、ほとんどの人は、十分な長さの生活をしていると仮定して、ある時点でBBBに進むと想定しています。そして、縦断的なデータは非常に役立つことを理解していますが、この場合は利用できないと想定しています。 私が言ったように、これが重複している場合はおologiesび申し上げますが、私の問題の一部は、何を検索すべきかわからないことです。同じ理由で、必要に応じて他のタグを追加してください。 サンプルデータセット:Sspは、2つの亜種またはYのいずれかを示します。子孫は、子孫なし(A)または少なくとも1人の子孫(B)を示しますXXXYYYAAABBB age ssp offsp 21 Y A 20 Y B 26 X B 33 X B 33 X A 24 X B 34 Y B 22 Y B 10 Y B 20 Y A 44 X B 18 Y A 11 Y B …

4
連続データをモデル化するときにポアソン分布はどのように機能し、情報の損失につながりますか?
同僚は、学位論文のいくつかの生物学的データを、いくつかの厄介な異分散性で分析しています(下図)。彼女は混合モデルで分析していますが、まだ残差に問題があります。 応答変数をログ変換すると、物事がクリーンアップされ、この質問へのフィードバックに基づいて、これは適切なアプローチのようです。ただし、元々、混合モデルで変換された変数を使用することには問題があると考えていました。Littell&Milliken(2006)SAS for Mixed Modelsで、カウントデータを変換し、通常の線形混合モデルで分析することが不適切である理由を指摘していたステートメントを誤って解釈していたことがわかりました(完全な引用は以下) 。 残差も改善したアプローチは、ポアソン分布の一般化線形モデルを使用することでした。ポアソン分布は連続データのモデリングに使用でき(たとえば、この投稿で説明されているように)、statsパッケージで許可されますが、モデルが適合するときに何が起こっているのかわかりません。 基本的な計算がどのように行われているのかを理解するために、私の質問は次のとおりです:ポアソン分布を連続データに適合させると、1)データは最も近い整数に丸められますか?2)これは情報の損失をもたらします3)連続データにポアソンモデルを使用するのが適切な場合はいつですか? Littel&Milliken 2006、pg 529 "[count]データの変換は逆効果になる可能性があります。たとえば、変換はランダムなモデル効果の分布やモデルの線形性を歪める可能性があります。結果として、変換されたデータを使用した混合モデルからの推論は非常に疑わしい。」

9
統計と生物統計の違いは何ですか?
私は、統計と生物統計学の違いについて長年にわたっていくつかのアイデアをつなぎ合わせてきたが、正式な説明を聞いたことがないことに気付いた。これら2つの分野の違いは何ですか(現在)。そして、なぜこの区別が最初に始まったのですか? 編集:私は元の質問で十分に具体的ではありませんでした。私は、生物統計学が生物医学分野における統計学の応用と発展であることを理解しています。しかし、区別のいくつかの具体的な例は何ですか?たとえば、2つの分野で大学院教育を区別するものは何ですか?2つの分野に異なる学部を設ける目的は何ですか(他の分野では見られない区別)。

4
信頼性の低い/混乱した/無効な研究またはモデルが悪用された公衆衛生政策研究のケーススタディとは何ですか?
データが混同されている現在の公衆衛生問題に関する文献レビューを起草しています。 無効または交絡した関係または推論が公衆衛生政策および法律で意図的または誤って採用された公衆衛生/疫学教育で使用される一般的な歴史的事例研究とは何ですか? 法律によって要求されなければならないエアバッグ最終的にシートベルトを決定し、1960年とその後の証拠に基づく、政府主導の研究の自動車致死サージが良い例であるHOW統計的に強力な推論やモデルによって駆動されるべき公衆衛生政策。 私は反対のタイプのケースの例をもっと探しています(政策を急いで作るのは悪い科学です)。しかし、他に何もなければ、公衆衛生の利益を成功させるための強力な研究の前の例と同様の事例をもっと知りたいと思います。 これらを例として使用し、エビデンスに基づいた統計的公衆衛生研究が政策立案にとって重要であることを示したいと思います。

2
RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算
うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。 実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。 つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。 以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。 したがって:C = ChIPチップが強化された遺伝子の総数= 400。 私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか?言い換えると、BとC(100遺伝子)の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか?これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。 オンライン計算機(stattrek.com)を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P(x = 100)= 0.00224050636447747について次の結果が得られます BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか?1つの遺伝子が濃縮される可能性が1:5(15,000のうち3,000)である場合は、そうではありません。そのため、上記で計算したP(x = 100)が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2%の確率に相当します。これはもっと高くないでしょうか? 15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます(1:5)。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。 私はまた、Rのdhyper関数またはphyper関数を使用して(別の投稿で見たものを使用して)解決策を考え出しました:A =ゲノム内のすべての遺伝子(15,000)B = RNA-Seq濃縮遺伝子(3,000)C = ChIP -チップ濃縮遺伝子(400)これがRの入出力です(以前のstackexchangeポストから変更)。 > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, …

2
2つのグループで風邪を引く確率を比較するためのテストとテスト
興味深い実験(残念ながらソースはありません)について、かなり尊敬される(人気のある)科学雑誌(ドイツのPM、2013年2月、36ページ)を読みました。直感的に結果の重要性を疑ったので、それが私の注意を引きましたが、提供された情報は統計的検定を再現するのに十分でした。 研究者は、寒い気候で寒くなると風邪をひく確率が高くなるのではないかと考えました。そのため、180人の学生のグループをランダムに2つのグループに分割しました。1つのグループは、足を冷水に20分間保持しなければなりませんでした。もう一人は靴を履き続けた。ちょっとおかしな操作だと思いますが、一方で私は医者ではなく、医者はおもしろいと思います。倫理的な問題は別として。 とにかく、5日後、治療グループの学生のうち13人は風邪をひいていましたが、靴を履いたグループでは5人しかいませんでした。したがって、この実験のオッズ比は2.87です。 サンプルサイズがかなり小さいことを考えると、この違いが大きいのではないかと思い始めました。そこで、2つのテストを実施しました。 最初に、正規近似を使用した比率の等価性の簡単なテスト。このテストは、で。私の推測では、これは研究者がテストしたものです。これは本当に重要なことです。ただし、このz検定は、通常の近似のために間違えない限り、大きなサンプルでのみ有効です。さらに、有病率はかなり小さく、これが効果の信頼区間のカバー率に影響を与えないのではないかと思います。z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 2番目の試みは、モンテカルロシミュレーションと標準のピアソンカイ2乗の両方を使用したカイ2乗独立性検定でした。ここで、についての値を見つけます。p=.082p=.082p=.082 今では、結果についてそれほど安心しているわけではありません。このデータをテストするためのオプションが他にあるかどうか、2つのテストについてのあなたの考えは何か(特に、最初の重要なテストの仮定)

1
同等性の帰無仮説
仮定ノーマルから単純無作為サンプルです分布。X1,X2,...,XnX1,X2,...,XnX_1, X_2, \, ... \, , X_n(μ,σ2)(μ,σ2)(\mu,\sigma^2) 次の仮説検定に興味があります 与えられた定数。H0:|μ|≤cH1:|μ|>c,H0:|μ|≤cH1:|μ|>c, H_0: | \mu| \le c \\ H_1: |\mu| > c, c>0c>0c > 0 2つの片側検定(TOST)を、nullとある通常の生物学的同等性試験の状況に類似した方法で実行することを考えていましたですが、これが理にかなっているのか、正しいのかわかりません。ttt|μ|≥c|μ|≥c|\mu| \ge c 私のアイデアは、片側テストを実行することです および およびの1つがグローバル帰無仮説を棄却 -値が有意水準よりも小さい。H01:μ≤cH11:μ>cH01:μ≤cH11:μ>c H_{01} : \mu \le c \\ H_{11} : \mu > c H02:μ≥−cH12:μ<−c,H02:μ≥−cH12:μ<−c, H_{02} : \mu \ge -c \\ H_{12} : \mu …

3
BMIインデックスを体重/身長
たぶんこの質問には医学での答えがありますが、BMIインデックスがとして計算される統計的な理由はありますか?なぜ例えば重量/身長だけではないのですか?私の最初のアイデアは、二次回帰と関係があるということです。体重/ 身長2weight/height2\text{weight}/\text{height}^2体重/ 身長weight/height\text{weight}/\text{height} 実際のデータのサンプル(体重、身長、年齢、性別を持つ200人): structure(list(Age = c(18L, 21L, 17L, 20L, 19L, 53L, 27L, 22L, 19L, 27L, 19L, 20L, 19L, 20L, 42L, 17L, 23L, 20L, 20L, 19L, 20L, 19L, 19L, 18L, 19L, 15L, 19L, 15L, 19L, 21L, 60L, 19L, 17L, 23L, 60L, 33L, 24L, 19L, 19L, 22L, 20L, 21L, 19L, 19L, …

2
応用学術雑誌記事の統計セクションの良い例
私は応用分野で働いている生物統計学者であり、私が協力している論文の統計手法セクションを作成する責任があります。多くの学術論文を読んでいると、不適切に書かれた統計セクションの多くの例に出くわしました(主にそれらは退屈で、情報がなく、使用される方法論の正確さ、詳細、および理解が不足しています)。 使用される統計手法の主題と高度化に関係なく、応用研究記事のよく書かれた統計セクションの良い例は何ですか? 「よく書かれた」を定義する方法は主観的ですが、明快で、分析が行われた方法の全体像を示し、分析中に行われた仮定に対処する場合、統計セクションも記述します。統計プロセスを紙のフローに組み込んでいます。 ここに私が良い統計セクションを持っていると思う論文のいくつかの例があります: BCGワクチン接種はワクチン接種アナグマとワクチン未接種アナグマの結核感染のリスクを軽減します。 一次経皮的冠動脈インターベンションで治療された急性ST上昇心筋梗塞の死亡率を予測するためのモデル:急性心筋梗塞試験におけるペクセリズマブの評価の結果 その他?「良い」統計セクションに何を含めるべきかについての考えも大歓迎です。

1
遺伝子リストの充実度をテストするためにどの統計テストを使用すべきですか?
特定のDNA損傷物質に対する細胞の感受性をテストする実験を行いました。薬剤に対して特異的に感受性のある270の遺伝子が見つかり、分析された遺伝子の総数は3668でした。270の感受性の遺伝子のうち38は「DNA修復遺伝子」に分類されます。ゲノムに含まれる「DNA修復遺伝子」の数が112で、ゲノム内の遺伝子の総数が3668である場合、DNA修復遺伝子の高感度遺伝子濃縮ですか?どの統計検定を使用する必要がありますか?オンラインでp値を計算するためのツールも教えていただければ幸いです。

2
ポアソン回帰を使用したバイナリデータの調整済みリスク比の推定
ロジスティック回帰を使用して調整オッズ比を推定する方法に類似した、調整リスク比の推定に興味があります。一部の文献(例:this)は、Huber-White標準誤差でポアソン回帰を使用することが、これを行うためのモデルベースの方法であることを示しています 連続共変量の調整がこれにどのように影響するかについては、文献を見つけていません。次の簡単なシミュレーションは、この問題がそれほど単純ではないことを示しています。 arr <- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b <- runif(n)<p x <- rnorm(n) pr <- exp( log(BLR) + log(RR)*b + ce*x) y <- runif(n)<pr model <- glm(y ~ b + x, family=poisson) B[i] <- coef(model)[2] } return( mean( exp(B), na.rm=TRUE ) ) } set.seed(1234) arr(.3, …

3
初めての先生への提言(生物統計学入門)
私は今秋、ファーストクラスを教えています(生物統計学の概要)。誰かが統計をよりよく教えるための提案はありますか?たぶん、あなたがあなたの最初の先生が使用したいと思ういくつかの例はありますか?私はPaganoとGauvreauによるPrinciples of Biostatisticsを使用しています。 詳細を編集する このクラスは、週2回1.5時間開催されるオンラインクラスです。学生は、パワーポイント/ビーマープレゼンテーション(退屈ですか?)と小さなタブレット/ペンアクション(エキサイティングですか?)を見ながら講義を聞いてくれます。大学院生(看護、医学生、公衆衛生など) シラバス: 1)生物統計学とは何ですか? 2)確率 3)診断テスト(すなわち、特異性、感度、ROC曲線。主にここでb / cを使用すると、ベイズルールなど、確率で学んだことの一部を適用できます) 4)分布 5)標本分布 6)信頼区間 7)仮説検定(1つのサンプル、2つのサンプル、比率) 8)検出力とサンプルサイズの計算 9)ノンパラメトリック法 10)隣接表(カイ2乗検定、フィッシャー検定、mcnemars検定、相対リスク、オッズ比) 11)相関 主な目的は、学生が統計的推論の中心的な概念を学ぶことです。たとえば、「どの薬が良いですか?」という質問をどのように定量化しますか。そのようなもの。 上記のセクションについて、それらを教えるためのアドバイス/注意の言葉はありますか? たとえば、私はプロポーションの推論を行うときに、学生をワルドテストとスコアテストに紹介するさまざまなアプローチを見たり聞いたりしました。教え方が不十分だと、生徒は混乱しやすくなります(「なぜ2つあるのですか?」、「どちらを使用するのか」、「私には同じように見えます」)。一部の教師はこれらの名前についてさえ言及せず、 :信頼区間に対してこれを行い、仮説検定に対して他のことを行います。この問題や他の問題にどのように取り組みますか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ランダムウォークは正確に何をしますか?
正直なところ、私はこの質問に関する多くのWebサイトと回答を読みましたが、理解しやすい簡単な言葉では説明していません。私がしたいのは、ランダムウォークの機能と、それを遺伝子セット濃縮分析にどのように使用できるかを理解することです。 ここに公開された論文があります。 誰かがそれを簡単な言葉で説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.