ランダム分布からの逸脱の背後にある力学


8

私たちが取り組んでいるシステムは生物学的であり、より具体的には、プログラムされたDNA損傷イベントが染色体全体に分布しています。これは、ポイントを選択できる1Dアレイ(染色体)と考えることができます(意図的な損傷の部位)。これらのイベントの位置を実験的にマッピングし、ランダムな分布に当てはまるかどうかを最初に質問しました。つまり、染色体に沿った任意のポイントで等確率で損傷が発生する可能性があり、特定の損傷部位は互いに独立しています。MATLAB(randi)でランダム分布を生成することにより、これは事実ではないことがわかりました。

実際のデータとモデル化されたデータの両方からポイント間距離(IPD)を分析すると、実際のデータは、特定のIPDサイズ以下でのみランダム分布から逸脱し、その後、その上にランダム分布に再結合します。実際のデータで偶然に予想されるよりも短いIPD。

ここに画像の説明を入力してください

IPD結果の例:

ここに画像の説明を入力してください

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

ここでは、IPDが対数Y軸にプロットされ、ヒストグラムのように昇順でプロットされます。特定のIPDサイズ(Y軸)の下を見るとわかるように、青い線は赤い線からずれています。

私たちがテストしている仮説(これは健全な生物学的根拠を持っています)は、1つのイベントの位置がすでに形成されたイベントに依存するというものです。具体的には、サイトが選択されるとすぐに、周囲の抑圧ゾーンが呼び出され、周囲の領域が次のサイトとして選択される可能性が低くなります。これにより、イベントが効果的に分離され、より短いIPDがないことが説明されます。このゾーンは、選択したポイントから離れるほど強度が徐々に低下します。これは、特定のIPD距離を超えると独立に戻ることを示しています。

ここに画像の説明を入力してください

質問:ランダムなデータセットと実際のデータセットのみからこのゾーンの形状を導出できる数学的な方法はありますか?たとえば、その効果が見えなくなるまで、各ポイントでその強さ(ランダム性から逸脱する能力)を計算することによって?

上の図の三角形の形状とスケールは、私が得ようとしている主なものです(必ずしも三角形ではありません)。

この仮説をシミュレートする2番目のモデルがあります-有望な結果を提供しますが、抑圧ゾーンの形状、スケールなどについてのガイダンスが必要です。それ以外の場合は試行錯誤で、複数の異なるウィンドウ+パラメーターが適合する可能性があります。


IPDをヒストグラムにビニングし、ガンマ確率関数をフィッティングし、これをハザード関数に変換することで、以前に同様のことを行ったことがありますが、私は数学者ではないので、これが正しい方法であるかどうか、またどうすればよいかわかりませんそれ。

私は主にMATLABで働いているので、誰かがMATLABの形で何らかの助けを提供できればそれは素晴らしいことですが、どんな助けでも最も高く評価されます。

プロットで使用されるデータ:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

提案した方法は、分布を近似する標準的な方法です。時間はあなたにとって重要であるかどうかはわかりませんが、そうである場合、それはあなたが不均一なプロセスを扱っているかもしれません。これはトリッキーになります。
mandata

時間に関してあなたが尋ねていることを完全に理解しているとは思いません。詳しく説明してもらえますか?
AnnaSchumann、2015年

「このゾーンは、特定のIPD距離を超えると独立に戻ることを説明するために徐々に消散します。」あなたはこれを気にしますか?
mandata 2015年

あなたの現象について少し説明していただけますか?何を測定していますか?また、「ランダム」とは、あなたが考えている特定の分布を意味するようです。変数はランダムでもかまいませんが、分布が異なるため、予想よりも裾が細くなる可能性があります。
Aksakal

@mandata申し訳ありませんが、これは不適切な言葉遣いでした。編集により更新しました。ゾーンの強度は、選択したポイントから離れるにつれて徐々に減少することを意味しました-時間とともに消失することではありません。
AnnaSchumann、2015年

回答:


3

問題は、IPDの特定のランダム分布を想定していて、経験的分布に適合していないことです。そのため、これまでの説明を踏まえると、質問の定式化は少し混乱しています。「偏差」はランダム性からではなく、想定された理論的分布からの経験的分布によるものです。

ロケーション生成します。0と1000が境界です。したがって、IPDは。Δ X I = | x ix i 1 |xiU(0,1000)Δxi=|xixi1|

次のように、与えられた小さなに対する小さなIPDの無条件確率を見つけることができます。
ε > 0

P(Δxi)<ε
ε>0

P(Δxi)<ε=ε500ε21,000,000

これは独特の分布です。累積関数と密度関数は次のとおりです。ここに画像の説明を入力してください ここに画像の説明を入力してください

x軸はIPD、y軸は累積(左)および密度(右)確率関数です。

選択したモデル(つまり、ランディ関数)を見るとわかるように、小さい距離の確率は非常に高く、大きいIPDの確率よりもはるかに高いことを意味します。あなたの生物学的現象はおそらくこのモデルに適合していません。他のモデルを試してみてください。


最初にテストして、実験的に決定された分布がランダム分布と一致するかどうかを確認しました。彼らはそうしません-そして私たちはこれを知っています。現在、OPに記述されている仮説(これには特定の生物学的根拠がある)を使用して、新しいモデルを作成しようとしています。私たちが抱えている主な問題は、抑制ゾーンの形状/スケールの複数の組み合わせがデータに適合していることです。どちらが正しいかを知る必要があるため、データセットのみから形状/スケールを導出できるかどうかを尋ねています。
AnnaSchumann、2015年

@AnnaSchumann、誘導された均一分布の密度よりも左尾の密度が低い分布を探します。たとえば、IPDの分布にモードがあることに気付いた場合は、ポアソン、負の二項、対数正規、さらには正規から始めて、適合が改善するかどうかを確認することができます。
Aksakal、2015年

ありがとう!今から見ていきます。上記の回答のグラフの軸ラベルは何ですか?それらを完全に理解しているとは思えません。
AnnaSchumann、2015年

@AnnaSchumann、回答を更新
Aksakal

特定のIPDサイズの確率は、各反復でrandiによって選択される数に依存しませんか?私たちのシステムでは、通常、かなり大きな境界がありますが、おそらく3〜5のイベントサイトしか選択しません。選択したサイトの異なる量の確率分布をモデル化する方法はありますか?
AnnaSchumann、2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.