[RAD seq classic] 關於RAD研究中的缺值。

相較於Sanger定序的資料,在RAD的資料中最常被別人詬病的不外乎幾點:缺值比例高,SNP來源不清等。這一篇就先來談談RAD研究中的缺值問題,我也挺有興趣的。

由於在RAD的研究中,我們會建構出一個Library(裡頭會有許多樣本個體,端看你所需要的coverage大小,來決定放的個體數量),一次使用次世代定序所得到的資料量是固定的 (譬如說 a HiSeq Illumina run may generate 140 million reads. )但是!即使每個放入library的樣本DNA濃度一樣,但最後分配到不同物種的資料量並非是平均,而是隨機的,如此一來缺值的情況就會發生。然而,為什麼呢?其實導致缺值的原因有很多,像是樣本的限制酶切位位置的突變,或是在後端資料處理時,像是我們是用minimal depth或變異量作為參數來決定是否要使用此loci等。但由於使用的資料量太大,我們通常很少深入一一探討。但現在使用RADseq的分子親緣關係或生物地理研究,面對缺值所造成得影響或限制,以及如何處理和解決,已成為必要議題。然而不同研究面對缺值所使用的方法不盡相同,有些研究會去除有缺值的loci (McCormack et al. 2012 ; Zellmer et al. 2012 [尚未讀過]),有些會納入使用,即使他的缺值比例甚高(像是慈鯛的例子就是,但我讀過大部分的paper都還是會納入,只是比例多少而已),但無論哪一個決定都會影響最後的結果。但目前不確定的是納入缺值所得到的結果,是否能得到精確的推論。然而2014年Huang和Knowles的模擬研究便是探討這件事情:RADseq缺值的tolerance差異,對於:1.用於分子親緣關係研究的基因組data set的性質; 2.對於單系群的推論; 3.對於分子親緣關係推論的精確度,有何影響。

最後在模擬的結果中可以推論(是的,我要跳掉中間有點難懂的模擬方法):若我們使用保守(conservatively)選擇的loci(=對於缺值低容忍度=矩陣較大=缺值較多)所得到的結果,會比randomly selected loci矩陣所建立的結果,在分子親緣關係的精確度來說會來得比較糟。在模擬結果中認為後者為優。在很多研究中也都能發現,像是慈鯛 [Wagner et al. (2013)] 和果蠅的例子 [Rubin et al. (2012)]。至於library construction和實驗材料本身的divergence history所導致的缺值影響,在這篇研究中並未有確切的結論,無法提供一個確定多少coverage的值或矩陣大小,依舊和不同物種有不同的情況而定。

這篇研究的價值在於,這是第一篇探討RADseq缺值的文章(尤其文中整理出那張可能導致缺值的圖很直觀,也很容易懂,我很喜歡用於解釋缺值成因),其中引用的研究其實不算多(可能也不夠多吧),用來模擬測試的現存研究也是,大略只能提出:the intuitive appeals about being conservative by removing loci may be misguided. 在我的研究亦有相似的推論。在我的研究中亦發現,在最後align好的SNP檔案裡,其實可以逐一打開調查不同矩陣的缺值比例,甚至一一去調查每個樣本的缺值比例,在我的結果中就可以發現,矩陣整體的缺值比例最多約為20幾%,最少有8點多%(STACKS分析),但是後者所建立的親緣關係結果就非常糟糕。以及一般而言,個體的缺值比例約為十幾%,但有少數外群的種類缺值比例會高達七十幾%(pyRAD分析),而在之後便會將它剔除,不納入矩陣中分析。然而我目前所得到的RAD的raw data亦只能透過後端參數品質篩選來挑整缺值比例而已。目前也尚未找到關於缺值要如何deal的確切標準相關研究,應該要繼續追蹤。

這篇研究中幾個名詞的概念整理:1.矩陣,在英文中常用data set, matrix。2. 對於納多/少缺值矩陣=big /small data set,較少缺值的矩陣=low tolerance for missing data (對於缺值低容忍度)=conservatively selected loci (保守),含多缺值的矩陣=randomly selected loci。

提一下supermatrix(常看到卻不懂之釐清):In the supertree method, different systematic data sets are analyzed separately, and then the trees derived from these independent analyses are used to produce a single, joint estimate of phylogeny.(先解釋supertree)The alternative supermatrix approach instead involves combining all systematic characters into a single, giant phylogenetic matrix and then analyzing all the characters simultaneously(supermatrix就是把所有的systematic characters一起考慮,在分子中就是同時計算所有串連序列特徵,在RAD的資料中勢必要使用這樣的運算策略)[詳情請看de Queiroz, Alan, and John Gatesy. “The supermatrix approach to systematics." Trends in ecology & evolution 22.1 (2007): 34-41.,有圖示易懂]

 

Huang, H., & Knowles, L. L. (2014). Unforeseen consequences of excluding missing data from next-generation sequences: simulation study of RAD sequences. Systematic Biology, syu046.
Rubin, Benjamin ER, Richard H. Ree, and Corrie S. Moreau. “Inferring phylogenies from RAD sequence data." PloS one 7.4 (2012): e33394.

[未讀]
McCormack, John E., et al. “Next-generation sequencing reveals phylogeographic structure and a species tree for recent bird divergences." Molecular Phylogenetics and Evolution 62.1 (2012): 397-406.
Zellmer, Amanda J., et al. “Deep phylogeographic structure and environmental differentiation in the carnivorous plant Sarracenia alata." Systematic Biology 61.5 (2012): 763-777.
廣告

對「[RAD seq classic] 關於RAD研究中的缺值。」的想法

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s