単一のヒトゲノムを保存するために必要なストレージの量をバイト単位(MB、GB、TBなど)で探しています。私はウィキペディアでDNA、染色体、塩基対、遺伝子に関するいくつかの記事を読み、大まかな推測をしましたが、何かを開示する前に、他の人がこの問題にどのように取り組むかを見たいと思います。
別の質問は、ヒトDNAにいくつの原子があるかということですが、それはこのサイトのトピックから外れています。
これは概算になると理解しているので、人間のDNAを保存できる最小値を探しています。
単一のヒトゲノムを保存するために必要なストレージの量をバイト単位(MB、GB、TBなど)で探しています。私はウィキペディアでDNA、染色体、塩基対、遺伝子に関するいくつかの記事を読み、大まかな推測をしましたが、何かを開示する前に、他の人がこの問題にどのように取り組むかを見たいと思います。
別の質問は、ヒトDNAにいくつの原子があるかということですが、それはこのサイトのトピックから外れています。
これは概算になると理解しているので、人間のDNAを保存できる最小値を探しています。
回答:
そのようなことを信頼するなら、ウィキペディアが主張していることは次のとおりです(http://en.wikipedia.org/wiki/Human_genome#Information_contentから ):
一倍体ヒトゲノムの29億塩基対は、すべての塩基対を2ビットでコード化できるため、最大で約725メガバイトのデータに対応します。個々のゲノムの違いは1%未満であるため、ロスレスで約4メガバイトに圧縮できます。
すべてのDNAを1つのストリームに保存するのではなく、ほとんどの場合、染色体ごとに保存します。
大きな染色体は約300MB、小さな染色体は約50MBかかります。
編集:
塩基対あたり2ビットで保存されない最初の理由は、データを処理する際のハードルが発生するためだと思います。ほとんどの人はそれを変換する方法を知りません。そして、転換のためのプログラムが与えられたとしても、大企業や研究機関の多くの人々は、プログラムのインストール方法を尋ねたり、尋ねたりする必要がないか、知らない...
1GBのストレージは無料です。3GBのダウンロードでも100Mbitspsで4分しかかからず、ほとんどの企業の方が高速です。
もう1つのポイントは、データは言われるほど単純ではないということです。
例:Craig_Venterによって発明されたシーケンスの方法は、大きな進歩が、もあります。同じ塩基対の長い鎖を分離することはできなかったので、8つのAがあるか9つのAがあるかは必ずしも100%明確ではありません。後で世話をしなければならないこと...
もう1つの例は、この情報を2ビット表現で保存できないためのDNAメチル化です。
基本的に、各塩基対は2ビットを取ります(T、G、C、およびAには00、01、10、11を使用できます)。ヒトゲノムには約29億塩基対があるため、(2 * 29億)ビット〜= 691メガバイト。
私は専門家ではありませんが、ウィキペディアのヒトゲノムページには次のように記載されています。
生のMB:
それらの差異がどこから来ているのかはわかりませんが、あなたはそれを理解できると確信しています。
N
たとえば、データがマッピングできないため不明な場合)。IUPACヌクレオチドコードには標準の4つ以上が含まれているため、ストレージのオーバーヘッドが増える可能性があります。 ebi.ac.uk/2can/tutorials/aa.html
R
、AまたはGのいずれかN
、任意の塩基、.
ギャップなどです。ゲノムを完全に読み取ることができれば、塩基あたりわずか2ビットになります。 。
はい、ヒトDNA全体に必要な最小RAMは約770MBです。ただし、2ビット表現は実用的ではありません。検索したり、計算を行ったりするのは困難です。したがって、一部の数学者は、これらの塩基の配列を保存するためのより効果的な方法を設計しました...そして、たとえばGARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html)などの検索および比較アルゴリズムでそれらを使用します。このアプリケーションは現在私のPCで実行されているので、あなたに言うことができます...実際には約1 563MBにDNAが保存されています。
ユーザーslayton、rauchen、Paul Amstrongを除くほとんどの回答は、圧縮技術のない純粋なストレージと1対1の場合、完全に間違っています。
3Gbのヌクレオチドを持つヒトゲノムは3Gbのバイトに対応し、約750MBではありません。NCBIに従って構築された「半数体」ゲノムは、現在、サイズが3436687kbまたは3.436687Gbです。こちらをご確認ください。
半数体=染色体の単一コピー。二倍体=一倍体の2つのバージョン。人間には22本の固有の染色体x2 = 44があります。男性の23番目の染色体はX、Yで、合計46本になります。女性23番目のクロム。はX、Xであるため、合計で46になります。
男性の場合、HDDのデータストレージでは23 + 1染色体になり、女性の場合は23染色体になり、時々答えにある小さな違いを説明します。Xクロム。男性からはXクロムに等しい。女性から。
したがって、ゲノム(23 + 1)のメモリへのロードは、fastaファイルから構築されたデータベースを使用してBLASTを介して部分的に行われます。zip形式であるかどうかに関係なく、ヌクレオチドはほとんど圧縮されません。初期の頃、使用されたトリックの1つは、タンデムリピート(「3GAC」などの短いコーディングのGACGACGAC、9バイトから4バイト)を置き換えることでした。その理由は、ハードドライブのスペース(7.200rpmおよびSCSIコネクタを備えた500bm-2GB HDDDプラッターの領域)を節約するためでした。シーケンス検索の場合、これもクエリで実行されました。
「コード化ヌクレオチド」の場合ストレージは、文字ごとに2ビットのだろう、あなたはバイトのために取得します:
A = 00
C = 01
G = 10
T = 11
この方法でのみ、1バイトのコーディングでポジション1、2、3、4、5、6、7、および8から完全に利益を得ることができます。たとえば、組み合わせ00.01.10.11(バイトとして)00011011
)は「ACTG」に対応します(そしてテキストファイルに認識できない文字として表示されます)。これだけでも、他の回答に見られるように、ファイルサイズを4分の1に減らすことができます。したがって、3.4Gbは0.85917175 Gbにダウンサイジングされます...当時必要な変換プログラム(23kb-4mb)を含めて約860MB。
しかし...生物学では、何かを読むことができるようにしたいので、圧縮gzipで圧縮するだけで十分です。解凍すると、まだ読むことができます。このバイトフィリングを使用すると、データの読み取りが難しくなります。そのため、fastaファイルは実際にはプレーンテキストファイルです。
ヒトゲノムには29億塩基対が含まれています。したがって、各塩基対をバイトとして表すと、29億バイトまたは2.9GBが必要になります。各塩基対は2ビットしか必要としないため、おそらくより創造的な塩基対の保存方法を考え出すことができます。したがって、おそらく1バイトあたり4塩基対を格納して、合計を1GB未満にすることができます。
私たちのDNAを構成する4つのヌクレオチド塩基があります。これらはA、C、G、Tであるため、DNAの各塩基は2ビットを占めます。約29億の拠点があるため、約700メガバイトになります。奇妙なことに、通常のデータCDがいっぱいになります。一致?!?
すべての答えは、nuDNAがヒトゲノムを定義する唯一のDNAではないという事実を除外しています。mtDNAも継承されており、ヒトゲノムにさらに16,500塩基対を提供し、ウィキペディアの男性の770MB、女性の756MBの推測と一致しています。
これは、ヒトゲノムを4GBのUSBスティックに簡単に保存できるという意味ではありません。ビットはそれ自体で情報を表すのではなく、情報を表すビットの組み合わせです。したがって、nuDNAとmtDNAの場合、ビットは、特に機能の観点から、それ自体で表現するために多くのMBの生データを必要とするタンパク質と酵素を表すためにエンコードされます(圧縮と混同しないでください)。
思考の糧:ヒトゲノムの80%は「ノンコーディング」DNAと呼ばれていますが、実際には、人体と脳全体をわずか151〜154MBの生データで表すことができると本当に信じていましたか?
塩基対は2種類しかなく、シトシンはグアニンにしか結合できず、アデニンはチミンにしか結合できないため、各塩基対は1ビットと見なすことができます。これは、ヒトDNAのストランド全体で約30億「ビット」が約350メガバイトになることを意味します。
1つの塩基(T、C、A、G(基数4の記数法:0、1、2、3))は2ビット(1ではない)としてエンコードされるため、1つの塩基対は4ビットでエンコードされます。