【Data process】2016/6/13

分析方向:看了一些paper,看到Stacks所設的m值:一個stack所需之最小定序深度 (read depth),其range大概在10~15左右。然而我測試是5,偏低。所以,想要開始測試高一點的值,看是否會影響樹型、分群或支持度。

48 samples (-m 10; -M 1 ; -n 1; -p 35) ‘allsample’

未命名.png

在台灣和南台灣小檗已經混在一起。清水山小檗被拆掉了。但各支序的支持度算高。

48 samples (-m 10; -M 1 ; -n 1; -p 40) ‘v1’

未命名.png

調高p值 (輸出的基因作至少須出現在多少族群中):35 → 40。發現支持度更差了。

台灣和南臺灣小檗依然為grade狀。高山和南投依然混在一起。所以我想要挑選各種下不同族群的Sample。台灣就挑合歡山、小奇萊族群;南台灣就挑北大武山族群;高山挑倫太文山、帕托魯山;南投挑合歡山小奇萊。得下面結果:

32 samples (-m 10; -M 1 ; -n 1; -p 40) ‘v2’

未命名.png

挑掉一些看似有問題的sample (不同地點的pengii和kawakamii,以及m值調高後,清水山就分掉了),便可發現各種間的分群就更好了;支持度亦高。

Next:

我認為可能是m值一下子調太高,清水山小檗本身的DNA品質就沒有其他人好,而在m值門檻調高後,沒有這麼足夠深度能組成一stack,就導致其在後面分析時的missing data較多,在樹的支序上就會誤判。以上是我的推測,所以我想接下來就逐漸調低m值 (8, 7…等)。之後再調整不同Sample的挑選,分開討論。

*分開討論:

  1. 先挑穩定且確定的各種族群,或是模式產地族群,優先分析。先測試前人的種的假說。
  2. 放入所有samples後,在其他的討論 (如:其實台灣的小檗還有很多新種?之類的,以及演化問題。)
廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s