ヒトゲノムを保存するにはどのくらいのストレージが必要ですか?


83

単一のヒトゲノムを保存するために必要なストレージの量をバイト単位(MB、GB、TBなど)で探しています。私はウィキペディアでDNA、染色体、塩基対、遺伝子に関するいくつかの記事を読み、大まかな推測をしましたが、何かを開示する前に、他の人がこの問題にどのように取り組むかを見たいと思います。

別の質問は、ヒトDNAにいくつの原子があるかということですが、それはこのサイトのトピックから外れています。

これは概算になると理解しているので、人間のDNAを保存できる最小値を探しています。


原子数は組成により異なります。AとTはGとCよりも小さい分子です。分子の構造は牛肉ですが、原子組成ではないため、これはあまり有用な計算ではありません。(たとえば、デオキシアデノシンとして知られるA分子はC10H13N5O3なので、31個の原子があります。)
トリプリー2015

参照してくださいbiostars.org/p/5514
Ondraジシュカに

ユーザーslayton、Paul Amstrong、およびrauchenを除いて、与えられた他のすべての回答は、本質的に完全に間違っているか、完全にはほど遠いものです。回答の中で、ユーザーは圧縮方法について言及している(失敗している)か、説明が不十分です。多くの回答に見られるように、ゲノムの4倍のダウンサイジングを明確にするために私の回答を参照してください。
ZF007

私は、それがここにオフトピックですので、オフトピックとして、この質問を閉じるために投票していますにする必要がありますbioinformatics.stackexchange.com
Chris_Rands

回答:


67

そのようなことを信頼するなら、ウィキペディアが主張していることは次のとおりです(http://en.wikipedia.org/wiki/Human_genome#Information_contentから ):

一倍体ヒトゲノムの29億塩基対は、すべての塩基対を2ビットでコード化できるため、最大で約725メガバイトのデータに対応します。個々のゲノムの違いは1%未満であるため、ロスレスで約4メガバイトに圧縮できます。


7
生物学的な解説を追加するだけで、ここでの「半数体」とは、各染色体の1つのコピーのみを意味します。人間の参照アセンブリは半数体(および複数の人のモザイク)です。実際の個々のゲノムは二倍体(XとYを除く各染色体の2コピー)ですが、サイトの小さなサブセットでの2つのコピー間のバリアントのみです。
Alex Stoddard 2012年

9
1日考えて、これに気づきました。ベースケースのヒトDNAを保存した場合、後続の人間のDNAは、ベースケースとの差として保存するだけで済みます。同性の例では、DNAは99.9%同じです。そして、性別を超えて、それは98.5%のようです。
コスタ

3
また、DNA塩基対内にエンコードされたすべての情報がエピジェネティックな情報であるとは限らないことも覚えておく価値があります。
Annarfych 2017年

意味あり。塩基対は基本的に4ナリーです。4つの数値は2ビットなので、サイズは2倍になります。つまり、5.8ギガビットまたは5.8 / 8ギガバイト、つまり0.725GBまたは725MBになります。「圧縮」が可能なのは、ゲノム全体を保存する代わりに、マップされたゲノムに対する差分を保存できるためです。
Dave Cousineau 2017年

@Annarfychエピジェネティックな情報は、定義上、継承できないため、これは非常に誤解を招く恐れがあります(人気のあるマスコミでは反対の誤った主張にもかかわらず)。遺伝情報はDNAにのみ保存されます。
コンラートルドルフ

25

すべてのDNAを1つのストリームに保存するのではなく、ほとんどの場合、染色体ごとに保存します。

大きな染色体は約300MB、小さな染色体は約50MBかかります。


編集:

塩基対あたり2ビットで保存されない最初の理由は、データを処理する際のハードルが発生するためだと思います。ほとんどの人はそれを変換する方法を知りません。そして、転換のためのプログラムが与えられたとしても、大企業や研究機関の多くの人々は、プログラムのインストール方法を尋ねたり、尋ねたりする必要がないか、知らない...

1GBのストレージは無料です。3GBのダウンロードでも100Mbitspsで4分しかかからず、ほとんどの企業の方が高速です。

もう1つのポイントは、データは言われるほど単純ではないということです。

例:Craig_Venterによって発明されたシーケンスの方法は、大きな進歩が、もあります。同じ塩基対の長い鎖を分離することはできなかったので、8つのAがあるか9つのAがあるかは必ずしも100%明確ではありません。後で世話をしなければならないこと...

もう1つの例は、この情報を2ビット表現で保存できないためのDNAメチル化です。


2
私から+1。しかし、「大きい」または「小さい」染色体が何を意味するのか私にはわかりません。
ミラノバブシュコフ2012年

1
これらの数値は、ウィキペディアの記述とは一致しません(en.wikipedia.org/wiki/Human_genome#Information_contentの表を参照してください)。)。私はあなたが間違っていると言っているのではありませんが、矛盾を説明できますか?
オリバーチャールズワース2012年

彼は、各位置の2ビットエンコーディングを想定できるMBではなく、Mbp(数百万の塩基対、各塩基対はゲノム内の単一の位置)を引用しているようです。
Alex Stoddard 2012年

ゲノムのDNAメチル化の一部は、生物の生涯にわたって変化します。ヒトゲノムのDNAメチル化データを含めることは、個人の一般的な説明というよりも、特定の瞬間における個人の詳細なスナップショットのようなものです。しかし、OPは彼らが望むものを指定しませんでした。
カウリネーター

12

基本的に、各塩基対は2ビットを取ります(T、G、C、およびAには00、01、10、11を使用できます)。ヒトゲノムには約29億塩基対があるため、(2 * 29億)ビット〜= 691メガバイト。

私は専門家ではありませんが、ウィキペディアのヒトゲノムページには次のように記載されています。

生のMB:

  • 男性(XY):770MB
  • 女性(XX):756MB

それらの差異がどこから来ているのかはわかりませんが、あなたはそれを理解できると確信しています。


6
現実的には、シーケンス情報に格納されている他の塩基があるため、2ビット以上が必要です(Nたとえば、データがマッピングできないため不明な場合)。IUPACヌクレオチドコードには標準の4つ以上が含まれているため、ストレージのオーバーヘッドが増える可能性があります。 ebi.ac.uk/2can/tutorials/aa.html
Alex Reynolds

壊れたリンクを@AlexReynolds:/
O0' 。

2
@AlexReynolds @ O0' bioinformatics.org/sms2/iupac.htmlは、それらのIUPACコードのためのより良いリンクです。AIUI、特定のゲノムの「スキャン」は不正確さのために2ビット以上を必要とします。したがってR、AまたはGのいずれかN、任意の塩基、.ギャップなどです。ゲノムを完全に読み取ることができれば、塩基あたりわずか2ビットになります。 。
スキーヤーページ2017年

1
X染色体は女性にとって単一です。男性は余分なYクロムを持っています。コーディングする必要があります。これは、私たち全員が知っているように、Xクロムとは異なります。
ZF0 0718年

また、メガバイトの定義方法によっても異なります。バイナリ2 ^ 20またはメートル法10 ^ 6バイトです。バイナリを使用しているので、数は少なくなります。
IL -屋

8

はい、ヒトDNA全体に必要な最小RAMは約770MBです。ただし、2ビット表現は実用的ではありません。検索したり、計算を行ったりするのは困難です。したがって、一部の数学者は、これらの塩基の配列を保存するためのより効果的な方法を設計しました...そして、たとえばGARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html)などの検索および比較アルゴリズムでそれらを使用します。このアプリケーションは現在私のPCで実行されているので、あなたに言うことができます...実際には約1 563MBにDNAが保存されています。


4

ユーザーslayton、rauchen、Paul Amstrongを除くほとんどの回答は圧縮技術のない純粋なストレージと1対1の場合、完全に間違っています。

3Gbのヌクレオチドを持つヒトゲノムは3Gbのバイトに対応し、約750MBではありません。NCBIに従って構築された「半数体」ゲノムは、現在、サイズが3436687kbまたは3.436687Gbです。こちらをご確認ください。

半数体=染色体の単一コピー。二倍体=一倍体の2つのバージョン。人間には22本の固有の染色体x2 = 44があります。男性の23番目の染色体はX、Yで、合計46本になります。女性23番目のクロム。はX、Xであるため、合計で46になります。

男性の場合、HDDのデータストレージでは23 + 1染色体になり、女性の場合は23染色体になり、時々答えにある小さな違いを説明します。Xクロム。男性からはXクロムに等しい。女性から。

したがって、ゲノム(23 + 1)のメモリへのロードは、fastaファイルから構築されたデータベースを使用してBLASTを介して部分的に行われます。zip形式であるかどうかに関係なく、ヌクレオチドはほとんど圧縮されません。初期の頃、使用されたトリックの1つは、タンデムリピート(「3GAC」などの短いコーディングのGACGACGAC、9バイトから4バイト)を置き換えることでした。その理由は、ハードドライブのスペース(7.200rpmおよびSCSIコネクタを備えた500bm-2GB HDDDプラッターの領域)を節約するためでした。シーケンス検索の場合、これもクエリで実行されました。

「コード化ヌクレオチド」の場合ストレージは、文字ごとに2ビットのだろう、あなたはバイトのために取得します:

A = 00
C = 01
G = 10
T = 11

この方法でのみ、1バイトのコーディングでポジション1、2、3、4、5、6、7、および8から完全に利益を得ることができます。たとえば、組み合わせ00.01.10.11(バイトとして)00011011)は「ACTG」に対応します(そしてテキストファイルに認識できない文字として表示されます)。これだけでも、他の回答に見られるように、ファイルサイズを4分の1に減らすことができます。したがって、3.4Gbは0.85917175 Gbにダウンサイジングされます...当時必要な変換プログラム(23kb-4mb)を含めて約860MB。

しかし...生物学では、何かを読むことができるようにしたいので、圧縮gzipで圧縮するだけで十分です。解凍すると、まだ読むことができます。このバイトフィリングを使用すると、データの読み取りが難しくなります。そのため、fastaファイルは実際にはプレーンテキストファイルです。


1
あなたはそれを写真や録音、あるいはビデオとして保存することもできます-そしてそれは保存するのに苦労するでしょう。しかし、それが求められたように、これは必須ではなく、最小限です
IL -屋

@ il--ya ...あなたが作ろうとしているポイントが欠けています...(250kmのTDKテープを移動するのが好きだと思います..600kgの重さで巻き戻しに3時間かかります)?
ZF007 2018

1
重要なのは、4つの塩基対のうち1つが2ビットの情報でコード化されているということです。これは、コーディングに必要なデータ量です。これより少ないデータでコーディングすることはできません。ただし、別の方法でコーディングすることもできます。バイト全体を使用するか、数kBの画像を描画するか、オーディオ録音を行うことができます。これにより、必要な情報を保存できますが、それは必須ではなく、最小限のコーディングでもかまいません。(標準のテキストエディタを使用して)読みやすさの基準を任意に課しましたが、これは元の質問で尋ねられたものではありません。
IL -屋

残念ながら、それは生物学でどのように機能するかではありません。科学者間のコミュニケーションの方法は、口頭、紙、またはテキストファイル形式のいずれかであり、画面から簡単に読み取ることができます。塩基対が1つある場合は、バイトを0または1で埋めるだけで十分です。ただし、4つのベース(2ペア)があります。1バイトには、塩基対の4つの位置と、塩基対のタイプを示す4つの位置があります。データ圧縮は機能しますが、人間には読みやすさが必要です。RGBコードの1つのピクセル(3つの値と強度値)は32バイトを使用します。1文字あたりわずか8ビット。したがって、それをモナリザにする意味はありませんよね?
ZF0 0718

6
ZF007、あなたは最小性についての私のポイントを逃しました。質問は、「ヒトDNAを保存するためにどのくらいのメモリが必要になるか」でした。さらに詳細に「...私はあらゆる人間のDNAを保存できる最小限の価値を探しています。」あなたは別の質問に答えようとしています。つまり、「生物学者がゲノムデータを伝達するために使用する読み取り可能な形式でヒトDNAを保存するには、どれくらいのメモリが必要ですか?」読み取り可能なテキストデータを適切な圧縮アルゴリズムで圧縮すると、そのサイズは塩基対あたり2ビットをはるかに下回ります。
IL -屋

3

ヒトゲノムには29億塩基対が含まれています。したがって、各塩基対をバイトとして表すと、29億バイトまたは2.9GBが必要になります。各塩基対は2ビットしか必要としないため、おそらくより創造的な塩基対の保存方法を考え出すことができます。したがって、おそらく1バイトあたり4塩基対を格納して、合計を1GB未満にすることができます。


ビット〜=バイト。29億ビットは約350MBです
SDGuero 2014

4
@SDGuero、塩基対は塩基2ではなく塩基4であるため、塩基対を表すには少なくとも2ビットが必要です。
slayton 2014

ビット用語のBS ...使用される文字変換テーブル(AscII、UTF-8など)に関係なく、各ヌクレオチドベースは1文字、つまり1バイトです。2バイトのアジアのコーディングは含まれていません。
ZF007 2018年

1
@ zf007塩基対は、a、c、g、tのTOKENSで表されます。トークンは文字と同じではありません。11と全く00としてエンコードすることができない理由、01としてC、G 10としてあり、tが存在しない
MatBailieは

1
不一致があります; 元の投稿にはない、人間が読める形式のファイルの必要性を主張しています。
MatBailie

3

私たちのDNAを構成する4つのヌクレオチド塩基があります。これらはA、C、G、Tであるため、DNAの各塩基は2ビットを占めます。約29億の拠点があるため、約700メガバイトになります。奇妙なことに、通常のデータCDがいっぱいになります。一致?!?


3

ちょうどそれもしました。生のシーケンスは約700MBです。固定ストレージシーケンスまたは固定シーケンスストレージアルゴリズムを使用する場合、および変更が1%であるという事実は、perchromosome-sequenceoffset-statedeltaストレージで約120MBを計算しました。ストレージは以上です。


1

すべての答えは、nuDNAがヒトゲノムを定義する唯一のDNAではないという事実を除外しています。mtDNAも継承されており、ヒトゲノムにさらに16,500塩基対を提供し、ウィキペディアの男性の770MB、女性の756MBの推測と一致しています。

これは、ヒトゲノムを4GBのUSBスティックに簡単に保存できるという意味ではありません。ビットはそれ自体で情報を表すのではなく、情報を表すビットの組み合わせです。したがって、nuDNAとmtDNAの場合、ビットは、特に機能の観点から、それ自体で表現するために多くのMBの生データを必要とするタンパク質と酵素を表すためにエンコードされます(圧縮と混同しないでください)。

思考の糧:ヒトゲノムの80%は「ノンコーディング」DNAと呼ばれていますが、実際には、人体と脳全体をわずか151〜154MBの生データで表すことができると本当に信じていましたか?


-3

塩基対は2種類しかなく、シトシンはグアニンにしか結合できず、アデニンはチミンにしか結合できないため、各塩基対は1ビットと見なすことができます。これは、ヒトDNAのストランド全体で約30億「ビット」が約350メガバイトになることを意味します。


2
2種類のペアがあり、2方向にすることができるため、ペアごとに2ビットが必要です。これが、上記のほとんどの投稿が350MBではなく700MBまで書き込む理由です。
トロンスター2017年

-3

1つの塩基(T、C、A、G(基数4の記数法:0、1、2、3))は2ビット(1ではない)としてエンコードされるため、1つの塩基対4ビットでエンコードされます


2
ペアの塩基が互いに補完し合うことを除いて、情報を追加しないでください。したがって、塩基対と塩基対の両方を2ビットでエンコードできます。
IL -屋

あなたが「A」を持っているなら、あなたはそれを何で補完しますか?「AC」「AG」「AT」はすべて有効です。同様に、「T」、「TG」、「TC」、「TA」が有効な場合、どうしますか?
ロジャー・ヨハンソン

1
@RogerJohanssonいいえ、DNAでは「AT」塩基対のみが有効です。「TA」、「CG」、「GC」も同様です。他の塩基対の組み合わせは存在しません。
コンラートルドルフ

@KonradRudolph少なくとも9つのプリンがあります(en.wikipedia.org/wiki/Purine)。それらのすべてを使用して、AまたはGを置き換えることができます。これにより、OPの質問に対する解決策がより複雑になります。私はA、G、TおよびCに、それは簡単で、スティック維持することに同意
ZF007

1
@ ZF007存在しますが、ヒトゲノムでは安定して発生しないため、ゲノムの保存には関係ありません。それらの生物学的関連性は、突然変異(そして一時的にのみ)およびRNA修飾の文脈でのみ重要です。特に(この回答の文脈では)、ゲノムデータは「塩基対」として保存されず、単一の塩基のシーケンスとして保存され、各位置は2ビットでエンコードできます。これは理論的ではなく、実際に行われる方法です(ただし、ほとんどのアプリケーションでは、遺伝子データはビット圧縮ではなく(gzip圧縮された)ASCIIで保存されます)。
コンラートルドルフ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.