[RAD seq classic] 關於RAD seq (1)。

一開始從零開始,接觸到分生研究就直接碰到了RAD seq。很多時候少了基礎累積,就很難在上面堆疊,半路出家就容易遭遇到半生不熟的尷尬。又加上時間的限制,總需要在極短時間中找到一個比較有效率地權衡,先把需要的部份盡可能補齊。我想所有事情從零開始,最困難的部分就是概念上的建立。

RAD seq這個技術第一次發表是在2008年Baird等人的研究之中,在個研究裡所使用的材料是模式物種的三刺棘背魚(threespine stickleback)和粉色麵包黴菌(這篇值得看部分:方法部分和RAD的概念)。其實RAD seq可用的研究範圍很廣:Genomics of adaptation, Inbreeding and genomic diversity, Effective population size (Ne ) ,Population structure, phylogeography and conservation units, Introgression, Phylogenomics (Andrews et al., 2016),我們所使用的部分就只是其中的一部份而已。當然也必須分辨這個方法受到質疑時,問題是出在哪一個環節,而非全盤推翻。舉個例來說,Lowry在2017年的Breaking RAD和Catchen的Unbroken的爭執和討論,主要都在Genomics of adaptation和這方面的研究上,對於我的研究來說就沒有這麼直接相關。

想當然而,從2008年RAD seq這個方法被發表到現在,此方法也針對許多需求而有不一樣得調整(RADseq family像是2bRAD, ddRAD, GBS, CRoPS等,爾後有機會再來好好介紹)。但其中有幾個概念是固定的:1. 所有的方法都從genomic DNA開始→ 2. 並且會受到一至多個限制酶所切割→ 3. 接上Adaptor和條碼(Barcoding)→ 4. 片段大小的篩選→ 5. 最後定序得到RAD資料,以及資料處理。

1. genomic DNA開始:好的DNA品質、好的DNA品質、好的DNA品質,很重要說三次。如果DNA破碎會導致後續不好的影響,這影響層面很廣,像是在後續震碎步驟到挑選片段,或是在擴增PCR時就容易會有bias。

2. 限制酶:大致來說,限制酶可以分成兩大類:common cutters和rare cutters,透過限制酶切位的片段大小,達到切割頻率的差異。在很粗淺的估計可以得知:8-cutter會每65,536 bp切一次,而6-cutter為每4,096 bp切一次。當然這還會關係到本身材料的DNA狀況,像是GC content。在研究開始之前,我好像沒有認真調查自己物種本身的DNA性質,這應該要先做才行。

3. 接上Adaptor和條碼(Barcoding):以原版的RAD seq步驟中,會有兩次接上Adaptor(分別為P1和P2)。第一次的Adaptor(P1)包含擴增primer、上機所需的定序primer和條碼,並接在限制酶切位的地方。接下來會先透過隨機的震碎(mechanical shearing),讓大部分的片段達到所需的大小後,會再接上第二種Adaptor(P2),此功能為ensure that only the target genomic DNA fragments are sequenced. 簡言之,就是同時要擁有P1和P2的Adaptor才會順利在定序機器上被定序出來。像我所使用的算是Illumina sequencing-based的RAD seq,P2 Adaptor就會被設計成Y型,以在Illumina平台專用的定序技術(PCR bridge)所使用。現在也有一些專門用於RADseq family的kit,他們的Adaptor就又會有所不同(像是NEBNext® Ultra™ DNA Library Prep Kit for Illumina®)。在原版的RAD seq步驟中,一開始把有不同條碼的P1 Adaptor分別接上不同個體的片段之後(Barcoding),便可以將所有的樣本都Pool在一起,在接下來步驟中同時操作(這裡常會用一個動詞叫作multiplex。)如此以來,便可以節省下許多時間和勞力。

4. 片段大小的篩選:在RADseq family在這一步有不同的策略,大多都是想辦法獨立出所需要的片段大小。會透過間接或直接的方法,前者像是PCR(GBS和CRoPS,尚未了解),後者像是直接使用切膠的方法(RRLs, multiplexed shotgun genotyping (MSG), ezRAD and double digest RAD (ddRAD))。但在原版的RAD seq中,就直接使用機械性震碎的方法取得一定範圍的片段大小,所以每個片段會有一端是限制酶cut site,而另一端是隨機震斷。之後便透過磁珠篩選出我們所要的目標片段大小,以符合上機標準。在此片段大小篩選步驟中有個關鍵可以討論,就是希望最後所取得的片段大小要越一致越好,若不一致會在最後定序時造成浪費,也更容易產生缺值。然而像是2bRAD此方法,便透過IIB restriction enzymes得到一模一樣大小的小片段(33–36 bp)[尚未暸解,感覺很有趣]。

5. 次世代定序得到RAD資料:依不同的定序機型會有不同的片段大小(有機會再來聊聊),現在大部分都使用Illumina,目前可得到的片段大小約為50–300bp,有人估計未來會越來越長。而大致上可以提供兩種定序服務:single-end sequencing和paired-end sequencing,前者僅定序forward端,而後者為forward read和reverse端。幾乎所有的RADseq family皆可以選擇這兩者的定序方法,但對於2bRAD來說似乎不太需要paired-end(畢竟片段太小,也無需兩端確認)。接下來得到資料後的篩選和處理,便會透過幾個基本的概念來達成:de-multiplexing and trimming of barcodes,接著大致上能分成兩個處理方向:有reference genome或de novo。已有套裝軟體,像是近年較常被使用的Stacks, pyRAD和UNEAK,Stacks所能用的分析範圍較廣(像是genotyping and calculating population genetic statistics),至於pyRAD主要設計為phylogenetic所用,主打能克服insertion–deletion的問題,以得到更精準的資料,UNEAK主要用在GBS的資料處理(目前我使用過前兩個。)由於大多我所使用的材料物種多為非模式物種,de novo組裝的策略在於藉相似性將類似或相同的read cluster起來,接著便可以找到locus,以及若藉由paired-end data可以得到更長一些的contig。這些較為細節的分析策略在之前的文章中有提到。接著就會遭遇到缺值的問題,有一些研究就專注於這部分討論,但目前尚無定論。

這篇筆記就先寫到這裡,主要參考Andrews等人2016年的文章的前面部分,這篇很值得一看,很適合用於大方向觀念的建立,亦有一些Box等資訊補充一些詞彙的定義。但還是有大部分的細節需要去深入瞭解後才容易看懂或有感。另外這篇review也整理了很多很新的RADseq family策略比較,可以瞭解自己所需的目的,挑選適合自己的方法。另外這篇文章接下來後半段的部分,會集中在使用RAD seq會遭遇到的問題或bias,預告給下一篇筆記吧。

 

Baird, Nathan A., et al. “Rapid SNP discovery and genetic mapping using sequenced RAD markers." PloS one 3.10 (2008): e3376.

Andrews, Kimberly R., et al. “Harnessing the power of RADseq for ecological and evolutionary genomics." Nature Reviews Genetics 17.2 (2016): 81-92.

Lowry, David B., et al. “Breaking RAD: an evaluation of the utility of restriction site‐associated DNA sequencing for genome scans of adaptation." Molecular ecology resources 17.2 (2017): 142-152.

廣告

對「[RAD seq classic] 關於RAD seq (1)。」的想法

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s