[RAD seq之外] HyRAD & HyRADX

之前妤馨學姊有分享capture,target enchantment的研究,最後他有提到關於HyRAD和HyRADX這兩種方法。我整理目前一些常見的方法,簡單和大家分享。

無論是要聊capture或是RADseq,一開始會先介紹Reduced Representation Library (RRL)的概念,以獲得Loci的方法來看,這樣的Libaray製備的概念,大概就介於sanger定序和全基因體定序之間,可能會覺得不需使用到全基因體的資料,但又覺得sanger定序的資料太少或是太沒有效率,就會偏向使用這樣的方法。RRL這樣的概念,可以用於random或target的基因體上。我們比較常見的,也是之前我和宜軒用的方法,像是RADseq就是,或是之前陳老師有做的ddRADseq,或是像林老師他們做的GBS。

這裡簡單介紹一下RADseq的概念。簡單說就是靠限制酶的切位,定序這個site的前後一兩百bp。所以理論上來說,這樣就可以獲得每一個樣本,一樣的loci進行後續的分析。但事實上,並不是所有樣本都可以這麼順利。有可能是coverage的不足,或是本身的DNA品質不好,或是根本切位已經突變,就無法被取樣到。最後還會因為資料的處理,導致有些明明有定序出來的無法使用。一來這些都是變成missing data的原因。二來這些其實這些沒有用到的序列也都會被定序。因為一個lane的資料總量都是固定的,如果我們訂了一大堆不需要也不會用到的,相對也壓縮到需要的loci定序深度。最後拿到可以用的matrix時,缺值的比例就會很高。大概都高於50%以上。這也是為什麼RADseq會讓人詬病的原因之一。

另外再提另一個也屬RRL的方法,就是妤馨學姊做的capture,target enchantment的方法。上次他已經詳細介紹過了。簡單說他就是透過設計好的probe label目標DNA,最後用beads抓取這些被label的DNA,把不要的洗掉,最後就可以單純拿到target的序列。

這裡我整理一下,RADseq有幾個缺點:DNA品質限制,最後訂到的序列來路不明,大量缺值的問題。target enchantment的方法能彌補這幾個缺點,但是target enchantment的方法本身也有一些缺點,像是要研究從零開始的非模式物種,就需要花多一些時間和金錢來設計這些probe。所以就出現了介於這兩種方法的折衷。

像是Rapture,但這個方法其實沒有什麼特別,就只是在普通的RADseq library的製備流程中,在adaptor上加上biotin,可以更精準地抓到目標,減少雜訊,最後也可以提高locus的coverage。像是REAL baits,他其實和等一下要介紹的HyRAD很像(RADseq-based capture),但這是GBS-based capture。或是像這是上禮拜茂綸學長有在我們研究室社團分享的EecSeq,這就有點像等等要介紹的HyRAD-X,但是在probe的library產生的部分,他不是使用限制酶去標定的,不會因為這樣限制probe的數量。反正就是有新方法就各取名字的時代,差別可能只有幾個步驟的方法組合差異,像是RADseq的變形方法,或是用什麼來設計probe。但其實概念都差不了多少。

先來看hyRAD,首先會先備製兩個library,簡單說就是一個是要被抓的,一個是抓別人的。要被抓的就隨便做就好,這裡就是用shotgun library,一些品質比較差的樣本就會放在這邊。另一邊是要設計用來抓別人,所以本身的DNA品質就要好一些,這裡使用ddRADseq的方法,最後得到的reads在自行biotin label,自製probe就完成了。最後就兩邊混合capture,整體步驟就和target enchantment概念一樣。

在這篇研究中,分析的時候測試了三種reference,RAD-ref是用要抓別人的那個probe的library,那去定序,理論上這個作為reference應該是最合情合理的。另一個把最後抓到的序列定序後denovo assamble拿到的contig當作reference(像在RADseq後續分析一樣),還有一個是同時參考兩個定序後的結果,將RAD-ref做延伸,使用PriceTI設定比較嚴格組出的contig作為reference。最後結果可以發現單單用denovo assamble的reference所得到的contig是最多的。由於在抓的時候,專一性若不夠高,就很有可能會抓到其他的,尤其又是自製的probe,比起大公司合成(像是MYbaits和IDT),效果會更不好。接下來以single map的結果來看,用較嚴格的RAD-ref-ext作為reference的表現最好。再從最後得到的SNP總數來看,以map RAD-ref最好。

另外這研究在製備shotgun library,也就是被抓的的那個,他也有測試了要不要sonicate,結果發現舊一點的材料不需要會比較好,但過於老舊的(58歲那種,好像有沒有sonicate影響不大了),至於新鮮材料好像結果也沒影響太大。這裡看到fresh的材料獲得的SNP數量最少,感覺很怪,但裡頭有解釋說因為這裡設計用來抓人的reference sample和被抓的新鮮sample都是新鮮材料,兩種的genetic distance本來就比較小,找到的SNP就比較少。接著看到的是Matrix fullness(其實就是missing data比例反過來說而已)可以看到其實結果並沒有差很多,都有超過50%,也沒有哪一個condition的設定比較好,在這個研究中他用最後得到的結果反推,認為RAD-ref, non-sonicated的分析結果比較符合真實情況。原則上我覺得這個方法並沒有大破大立的進展,但就:缺值比例下降和平均的coverage提高而已。

接下來看到hyRAD-X,原則和概念和流程都和剛剛的hyRAD一樣,只是在自行合成probe的地方,他是用RNA做biotin labeling而已。但這個研究比較有趣的是用subfossil作為材料,就是沉積在湖底的銀冷杉松針。時間就拉到距今五千多到七千多年前。再抽DNA時也很酷,還要先照UV光。這裡主要測試了三種方法,和hyRAD做比較。這兩個長條圖為有沒有移掉PCR duplicates,map到reference的read數量所佔比例。在去除PCR duplicates之前和之後,不同方法所map到的結果也不太一樣。但仔細看,這些read所佔的百分比其實超少啊。hyRAD-X主要表現比較好的部分大概也是coverage提高。讀到最後好像有點失望,但回頭想想他可是從七千多年前的沈積物中拿到資訊來分析,並且拿到500 SNPs,缺值比例少於1/3,來其實也就很厲害了。

 

Suchan, T., Pitteloud, C., Gerasimova, N. S., Kostikova, A., Schmid, S., Arrigo, N., … & Alvarez, N. (2016). Hybridization capture using RAD probes (hyRAD), a new tool for performing genomic analyses on collection specimens. PloS one11(3), e0151651.

Schmid, S., Genevest, R., Gobet, E., Suchan, T., Sperisen, C., Tinner, W., & Alvarez, N. (2017). HyRAD‐X, a versatile method combining exome capture and RAD sequencing to extract genomic information from ancient DNA. Methods in Ecology and Evolution.

廣告