[RAD seq classic] 輻射演化的親緣關係研究。

開始我的小檗研究之前,這篇2013年關於慈鯛的研究大概是我的精神指標,研究背景和我的材料極像。這篇研究的標題下得聳動“unprecedented resolution”,對於當時剛開始接觸演化領域的我來說,不太懂這有什麼好驚喜的。

經歷快速輻射演化的物種對於演化研究來說都是件不容易的事情,東非維多莉雅湖的慈鯛就是很經典的例子。雖然他們的外觀型態有所差異,但很常因之間的DNA變異累積不夠多,只用少數的分子標記(maker)就難以將其解開他們種間的界線或親緣關係,再加上我們的研究常面對沒有reference genome的非模式物種(Non-model organisms),這會增加這類型研究的困難。然而RAD seq補足了Sanger定序這方面的缺陷。用更有效率(包括節省金錢和實驗勞力)的方法,得到更多的分子標記,進而找到更多的SNP,便能得到更好的結果。當然之中還是有一些問題,之後有時間再來討論。

在這篇慈鯛的研究中,便使用了RAD seq 方法 (Etter et al., 2011) 搭配次世代定序 (NGS, Illumina HiSeq 2000),使用Sbf I限制脢切割,用了三個lanes定序了156個個體(使用 52和60 barcodes, 六個mer),之後再補兩個lanes來增加個體的coverage(由於此用RAD方法會受到許多因素的影響導致每個樣本最後得到的資料量會有差異,通常都會在補data來使整體研究完善,有什麼因素之後再詳細說明。)大體而言,我所使用的方法和這篇的實驗制備流程也差不多,看來輕鬆簡單,對於一個沒有實驗經驗的我來說,就卡關了好幾個月,畢竟從DNA品質開始就有所要求(當然是越新鮮越好,和過去Sanger所能使用的品質有所不同),接下來RAD library地製備更是折磨(想到就不寒而慄),當然克服之後又是海闊天空。

接下來得到raw data後,研究先使用了FastX toolkit先做了品質過濾(end-trimmed to a length of 90 bp and reads containing one or more bases with a Phred quality score below 10, or more than 5% of the positions below 30, were discarded.),接著再使用STACKS再做一次,救回barcode有一個mer定序錯誤的序列,接著做de novo assembly ,依造所設定的參數[minimum stack size of 125 reads (-m),maximum distance between stacks (-M) within a locus as 2。] 這裡可以稍微解釋一下m值和M值,這也是主要在做RAD資料品質篩選常用到的參數,無論是STACKS或pyRAD軟體的概念都一樣。當我們最後得到RAD raw data,就是大量短序列的讀長(稱為“read”,前面會包含barcode序列和平台序列,長度不一定,憑定序決定,約莫100 bp),這裡可以稍微想像一下:透過軟體參數將同一個個體中一樣的reads疊起來 (read depth) 形成一個Stack (一個棧),那要多少一樣的read疊起來呢?這個參數就是m值。那不同個體間所組成的Stacks,差異多少個base才能被當作是候選同源基因座(contig或putative loci)並且輸出以供後續使用?這個參數就是M值。接著軟體也會自動除去過分高coverage的putative loci(會被稱為lumberjack stacks),因為這可能會是來自highly repetitive regions,便有可能會是non-orthologous sequences,所以次步驟也會一併除去這些潛在影響因子。接著此研究使用Genome Analysis Tool kit得到Genotypes:包括SNP和nonvariable sites,再透過設定不同的 ‘min individuals’ 來調整缺值(missing data)的比例(此研究中設定125, 115, 110, 100, 75 and 15 ,共145個個體。)以得到不同的矩陣(這也是在RAD研究中常被拿來探討的環節)。最後這步,我在使用STACKS的時候,使用‘population’參數,把一個個體當作一個族群,亦可以達到‘min individuals’的設定需求。在以上段落的步驟,大概使用STACKS和pyRAD都能做到,尤其pyRAD就是專為這類研究的所設計,就會更加便利。(STACKS的使用研究範圍比pyRAD更廣,之後有機會再來做兩者比較。)

在最後的結果中,除了釐清了種間關係以外,另一個在分析的結果中有個比較有趣的結果:就是缺值比例較高(矩陣大)的矩陣,他最後所得到的親緣關係結果支持度和結構,都會比參數設定較嚴格(矩陣小,缺值比例較低)的矩陣結果更來得好。其中也對於RAD data提出了一些問題:這些loci來自於哪裡?“currently unclear” ,由於當我們將此方法用於沒有參考序列的非模式物種,故無法將我們擁有的序列做比對,這會影響到在建立親緣關係時,所需要選擇的modle等後續分析問題。以上兩點也是我目前感到興趣的問題,在我的研究中也有遇到,之後亦可再加以討論。

本文主要討論了RAD seq在親緣關係研究上的主要大綱,以及其資料的處理流程。還有許多細節(像是實驗操作, 分析軟體和設定)有空再一一補上。

Wagner, Catherine E., et al. “Genome‐wide RAD sequence data provide unprecedented resolution of species boundaries and relationships in the Lake Victoria cichlid adaptive radiation." Molecular ecology 22.3 (2013): 787-798.

Etter, Paul D., et al. “SNP discovery and genotyping for evolutionary genetics using RAD sequencing." Molecular methods for evolutionary genetics (2011): 157-178.

廣告

對「[RAD seq classic] 輻射演化的親緣關係研究。」的想法

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s