[RAD seq] 親緣關係研究分析(phylogeny & species tree)

關於RAD seq的data有幾個特性:1. 相較短的讀長(Relatively short sequence reads):2. 全基因組分佈 (Wide genomic distribution)3. 難以分辨旁系同源基因或直系同源基因(Lack of distinct, at the outset of project, between paralogous and orthologous sequence)4. 缺值(Dropout of loci and alleles)。若要我描述RAD seq data,白話來說:資料量大,來路不明,缺值。之前也提過了缺值,也是RAD seq最惱人(Vexing,學一個新單字)的。

由於以上特性(或問題),就導致在之後的分析會有某些限制,例如因為短讀長和缺值的特性,便很難使用過去用於多基因(multilocus)來建構完整gene tree的方法(包含建構species tree和concordance analysis。)所以這也是為什麼很多RAD seq 研究是使用串聯矩陣(concatenated matrix)來推論出親緣關係樹。截至目前為止,有很多的研究使用這樣的方法得到很好解析度的結果(和Sanger定序相比)但受限於串連後的資料量非常龐大,故僅有少部分分子親緣關係的分析軟體能夠運算。現在最常使用的,以及適用於這樣尺度的運算,便是RAxML,但目前亦沒有研究對此有所討論(此外大家使用此軟體時,最常用的substitution model也只是預設的GTR+gamma model。)也有一些研究將所有無變異的位點排除,這樣有可能會導致一些bias(畢竟那些程式本來設計就非屬:所有皆為有變異位點),若可以就使用所有的基因座,便可消除這類的疑慮。(以上是官方說法啦)但是在實際操作上,完整的data set(包含變異及非變異點位)的資料量會更加龐大,在運算時也會造成問題。(真是麻煩呢)所以說呢,使用串聯方法(concatenation approach)既簡單又方便,但很明顯就是將這些問題掃到地毯下而已(sweep the error under the rug),那些有可能會發生在loci間的變異:譜系學(如隨機合併 stochastic coalescence 或基因滲入 introgression);substitution
parameters 和 evolutionary rate等。然而這導致出(大家也最關注的)statistical inconsistency的主因(gene tree不等於species tree。)在更多實際案例和實驗案例做比較之前,我們對於串聯法所建構的RADseq親緣關係樹,應更謹慎並保持懷疑。至於關於ancestral demographic的評估推論,就更不適合用此方法。在 Next-Generation Sequencing in Plant Systematics. “Chapter 6:Inferring phylogeny with RADseq data”文中,並不建議使用串聯方法(concatenation approach)來推論最終的親緣關係樹,最多他僅適合用來作為啟發工具(heuristic tool),僅提供一個基礎或框架,還需要更進一步分析(像是introgression)。目前很少有更進一步對於RADseq和串聯方法的討論。

所以所以所以,到底RADseq的方法能不能推論species tree呢?其實很少有研究在討論這件事,目前也並沒有特定的軟體專門用來處理RADseq的資料,但能預估有越來越多的研究需要這樣的方法。這裡先稍微整理一下以往建構species tree的方法,主要可分成兩大類:Supermatrix (concatenation) 和 Supertree,前者為先將所有基因座串聯後,再用此串聯後的序列建構出一棵樹,方法通常就是前者所提及的maximum-parsimony, maximum-likelihood, Bayesian inference and distance methods;後者supertree的方法,也是我比較不熟悉的,是將各個基因座分別建樹之後,再使用summary methods最後合併成一棵樹。據學長姐說,後者的方法近年就越來越少使用。

目前我讀過幾個研究,所使用的軟體有:BUCKy (他最後結果的呈現,可以在樹形上,不同枝上有百分比數值,顯示此枝得到多少genome比例的支持,但他有個壞處在於:不容許有缺值,故近年來RADseq研究使用他的頻率較少。), SNAPP(此為BEASTS的外掛軟體,主要需要的資料為unlinked bialletic markers類型,像是SNP或是AFLP。最後呈現方式會像是取不同locus來跑出gene tree,最後再疊在一起。並可以再加另一個外掛程式,可計算BFD*來計算不同的species model的BF和ML值,並決定哪一個model比較好,並排出rank優先順序,來決定哪一個分種model比較合適。), SVDquartets(一次取四個物種來建樹,並且最後將所有結果其合併。算是簡化計算,可以增快計算效率。並且可以考慮到RADseq中缺值多的問題,若一次僅討論四個,比起一次討論二十個,所遇到的缺值比例會下降很多。), TreeMix(此軟體主要能呈現introgression events,也就是說一開始就可以先設定預計有幾次introgression事件,並且將其呈現在樹上。), SplitsTree(做出network。

在這裡可以很清楚了解到串聯方法所呈現的親緣關係樹並不適合用在RADseq的最終討論中,但現在所看到的RADseq親緣關係研究中,大多皆有呈現這個結果,並且再搭配其他使用supertree的方法,在一起討論。真希望可以快點看到RADseq的專用分析軟體啊。

 

Ree, R. H., & Hipp, A. L. (2015). Inferring phylogenetic history from restriction site associated DNA (RADseq). Next-Generation Sequencing in Plant Systematics’.(Eds E Hörandl, MS Appelhans), 181-204.

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s