Presented by Farzaneh Khajouei The Mul7species Coalescent - - PowerPoint PPT Presentation
Presented by Farzaneh Khajouei The Mul7species Coalescent - - PowerPoint PPT Presentation
Presented by Farzaneh Khajouei The Mul7species Coalescent Generalizes the Wright-Fisher model of gene7c driA Constant effec7ve popula7on size (Ne)
The ¡Mul7species ¡Coalescent ¡
Generalizes ¡the ¡Wright-‑Fisher ¡model ¡of ¡gene7c ¡driA ¡
- Constant ¡effec7ve ¡popula7on ¡size ¡(Ne) ¡ ¡
- Non-‑overlapping ¡genera7ons ¡
- Neutral ¡evolu7on ¡for ¡the ¡loci ¡modeled ¡
- No ¡structure ¡within ¡popula7ons ¡
- Random ¡joining ¡of ¡lineages ¡backward ¡in ¡7me ¡
¡ The ¡coalescent ¡model ¡approximates ¡the ¡process ¡of ¡choosing ¡random ¡parents ¡ backward ¡in ¡7me ¡when ¡the ¡popula7on ¡size ¡is ¡large ¡rela7ve ¡to ¡the ¡number ¡of ¡ sampled ¡lineages. ¡ ¡ ¡ ¡ ¡ ¡
Incomplete ¡Lineage ¡Sor7ng ¡(ILS) ¡ ¡
Failure ¡of ¡two ¡or ¡more ¡lineages ¡in ¡a ¡popula7on ¡to ¡coalesce, ¡leading ¡to ¡the ¡ possibility ¡that ¡at ¡least ¡one ¡of ¡the ¡lineages ¡first ¡coalesces ¡with ¡a ¡lineage ¡from ¡ a ¡less ¡closely ¡related ¡popula7on. ¡ ¡
- Typical ¡with ¡shallow ¡species ¡trees, ¡where ¡taxa ¡are ¡closely ¡related ¡and ¡the ¡
root ¡of ¡the ¡tree ¡is ¡recent ¡ ¡
- In ¡deep ¡phylogenies, ¡for ¡some ¡combina7ons ¡of ¡branching ¡paQerns ¡and ¡
branch ¡lengths, ¡lineages ¡are ¡likely ¡to ¡sort ¡in ¡a ¡way ¡that ¡violates ¡monophyly ¡
- f ¡lineages ¡for ¡a ¡species ¡deep ¡in ¡the ¡tree ¡ ¡
¡ Different ¡usage ¡of ¡the ¡term ¡ILS ¡
– Par7cular ¡types ¡of ¡genealogical ¡paQern ¡ – A ¡process ¡that ¡explains ¡the ¡gene ¡tree ¡discordance ¡detected ¡in ¡gene7c ¡data ¡ – When ¡polymorphisms ¡exist ¡at ¡a ¡a ¡locus ¡in ¡descendant ¡popula7on ¡
¡ Hemiplasy: ¡The ¡gene ¡tree ¡incongruence ¡specifically ¡caused ¡by ¡incomplete ¡ lineage ¡sor7ng ¡when ¡ancestral ¡polymorphism ¡is ¡retained ¡through ¡specia7on ¡
- events. ¡ ¡
¡
Gene ¡Tree ¡and ¡Species ¡Tree ¡ Discordance ¡
ü Incomplete ¡Lineage ¡Sor7ng. ¡ ¡
- Horizontal ¡Gene ¡Transfer ¡
- Gene ¡Duplica7on ¡and ¡Loss: ¡
- ¡Hybridiza7on ¡ ¡
– Hybridiza7on ¡affects ¡whole ¡genomes, ¡whereas ¡HGT ¡ typically ¡affects ¡only ¡small ¡DNA ¡segments. ¡ ¡
- Recombina7on ¡
Anomalous ¡Gene ¡Tree ¡(AGT) ¡
A ¡gene ¡tree ¡topology ¡that ¡is ¡more ¡probable ¡than ¡the ¡gene ¡tree ¡ topology ¡that ¡matches ¡the ¡species ¡tree ¡topology ¡ ¡ AGT ¡arise ¡with ¡an ¡assignment ¡of ¡species ¡tree ¡branch ¡length ¡for ¡species ¡ tree ¡topology ¡with ¡at ¡least ¡five ¡taxa, ¡and ¡also ¡for ¡asymmetric ¡four-‑ taxon ¡tree ¡ ¡
- Long ¡branches, ¡lineages ¡are ¡likely ¡to ¡have ¡coalesced ¡within ¡
each ¡popula7on ¡(5Ne) ¡
- Shorter ¡branches, ¡mul7ple ¡gene ¡lineages ¡tend ¡to ¡persist ¡into ¡
deeper ¡por7ons ¡of ¡the ¡species ¡tree ¡ ¡
¡
¡
With ¡5 ¡or ¡more ¡species, ¡any ¡species ¡tree ¡topology ¡produces ¡at ¡ least ¡one ¡anomalous ¡gene ¡tree. ¡ ¡
A B C D E D E C A B Species ¡Tree ¡ Gene ¡Tree ¡
Gene ¡tree ¡probabili7es ¡under ¡the ¡ mul7species ¡coalescent ¡model ¡
The ¡probability ¡that ¡i ¡lineages ¡have ¡j ¡ ancestors ¡at ¡T ¡coalescent ¡7me ¡units ¡ (T ¡= ¡t ¡/ ¡N ¡) ¡in ¡the ¡past ¡is ¡
a[k] ¡= ¡a(a-‑1)…(a-‑k+1) ¡ a(k) ¡= ¡a(a+1)…(a+k-‑1) ¡
Coalescent ¡Histories ¡for ¡a ¡five ¡taxa ¡Tree ¡
A B C D E A C B D E Species ¡tree ¡ Gene ¡tree ¡ 4 3 2 1 (A,C) ¡ ((AC),B) ¡ (D,E) ¡ (((AC)B,(DE)) ¡ Probability ¡ gij(T) ¡is ¡the ¡probability ¡that ¡i ¡lineages ¡coalesce ¡to ¡j ¡lineages ¡during ¡7me ¡T ¡
Species ¡Tree ¡Inference ¡
- Democra7c ¡vote: ¡the ¡most ¡commonly ¡occurring ¡gene ¡tree ¡
topology ¡is ¡used ¡as ¡the ¡es7mate ¡of ¡the ¡species ¡tree. ¡
– Converges ¡on ¡an ¡incorrect ¡es7mate ¡when ¡four ¡or ¡more ¡taxa ¡are ¡ present ¡and ¡an ¡AGT ¡exists ¡ – sensi7ve ¡to ¡sampling ¡varia7on ¡for ¡small ¡numbers ¡of ¡loci ¡ ¡
- Consensus: ¡construct ¡a ¡tree ¡that ¡summarizes ¡input ¡trees ¡
defined ¡on ¡the ¡same ¡set ¡of ¡taxa ¡ ¡
- Concatena7on: ¡all ¡sampled ¡genes ¡are ¡concatenated ¡for ¡
each ¡taxon ¡and ¡are ¡then ¡analyzed ¡ ¡
- Maximum ¡Likelihood ¡
Species ¡Tree ¡Inference ¡ New ¡Approaches ¡
- Minimizing ¡the ¡number ¡of ¡deep ¡coalescent ¡ ¡
- Maximum ¡likelihood ¡(ML): ¡a ¡species ¡tree ¡likelihood ¡is ¡
- btained ¡by ¡condi7oning ¡on ¡the ¡gene ¡trees ¡at ¡each ¡locus ¡and ¡summing ¡
- ver ¡all ¡possible ¡sets ¡of ¡gene ¡trees ¡ ¡
- Bayesian ¡approach ¡ ¡
¡
Summary ¡
- A ¡species ¡tree ¡can ¡disagree ¡with ¡the ¡gene ¡tree ¡that ¡it ¡is ¡most ¡likely ¡to ¡
produce ¡
- Conflicts ¡in ¡gene ¡tree ¡and ¡species ¡tree ¡can ¡give ¡informa7on ¡about ¡how ¡
the ¡species ¡is ¡evolved. ¡ ¡
- Conflic7ng ¡gene ¡genealogies ¡can ¡be ¡used ¡to ¡infer ¡ancestral ¡popula7on ¡
parameters ¡
- popula7on ¡size ¡ ¡
- divergence ¡7mes ¡
- The ¡number ¡of ¡coalescent ¡histories ¡increases ¡quickly ¡ ¡
- This ¡severe ¡discordance ¡only ¡gets ¡worse ¡with ¡more ¡taxa ¡
- Some ¡algorithms ¡can ¡infer ¡the ¡correct ¡species ¡tree ¡even ¡when ¡gene ¡
tree ¡discordance ¡is ¡extreme ¡ ¡ ¡
Outstanding ¡Ques7ons(1) ¡
i. ¡Which ¡species ¡tree ¡es7mators ¡from ¡mul7locus ¡data ¡are ¡sta7s7cally ¡ consistent, ¡even ¡when ¡there ¡are ¡AGTs? ¡Among ¡consistent ¡algorithms, ¡ which ¡offer ¡the ¡fastest ¡convergence ¡to ¡the ¡species ¡tree? ¡ ¡ ii. Do ¡computa7onally ¡tractable ¡ML ¡algorithms ¡exist ¡that ¡consistently ¡infer ¡ the ¡species ¡tree ¡while ¡accoun7ng ¡for ¡varia7on ¡among ¡gene ¡trees? ¡ ¡ iii. What ¡are ¡the ¡effects ¡of ¡taxon ¡sampling ¡for ¡methods ¡of ¡inferring ¡species ¡ trees? ¡Do ¡improvements ¡in ¡gene ¡tree ¡es7ma7on ¡owing ¡to ¡increased ¡ taxon ¡sampling ¡lead ¡to ¡improvements ¡in ¡species ¡tree ¡es7ma7on? ¡ ¡ iv. What ¡is ¡the ¡computa7onal ¡complexity ¡of ¡the ¡evalua7on ¡of ¡gene ¡tree ¡ probabili7es? ¡For ¡a ¡given ¡number ¡of ¡taxa, ¡which ¡gene ¡tree-‑species ¡tree ¡ combina7on ¡maximizes ¡the ¡number ¡of ¡coalescent ¡histories, ¡and ¡what ¡is ¡ this ¡maximum? ¡If ¡the ¡gene ¡tree ¡matches ¡the ¡species ¡tree, ¡which ¡ topologies ¡minimize ¡and ¡maximize ¡the ¡number ¡of ¡coalescent ¡histories? ¡ ¡ v. Is ¡there ¡a ¡way ¡of ¡compu7ng ¡gene ¡tree ¡probabili7es ¡that ¡does ¡not ¡ depend ¡linearly ¡on ¡the ¡number ¡of ¡coalescent ¡histories? ¡ ¡
Outstanding ¡Ques7ons(2) ¡
vi. For ¡data ¡sets ¡with ¡high ¡levels ¡of ¡gene ¡tree ¡conflict, ¡how ¡can ¡researchers ¡ determine ¡whether ¡an ¡AGT ¡is ¡likely? ¡How ¡oAen ¡do ¡AGTs ¡arise ¡in ¡real ¡data ¡ sets? ¡ ¡ vii. How ¡sensi7ve ¡are ¡predic7ons ¡under ¡the ¡mul7species ¡coalescent ¡to ¡ viola7ons ¡of ¡assump7ons? ¡What ¡outcomes ¡are ¡expected ¡in ¡cases ¡with ¡ ancestral ¡popula7on ¡structure ¡or ¡high ¡levels ¡of ¡intragenic ¡recombina7on? ¡ ¡ viii. How ¡much ¡discordance ¡in ¡real ¡data ¡sets ¡can ¡be ¡aQributed ¡to ¡incomplete ¡ lineage ¡sor7ng, ¡hybridiza7on, ¡gene ¡duplica7on, ¡HGT, ¡natural ¡selec7on, ¡ recombina7on ¡and ¡sampling ¡error? ¡What ¡are ¡the ¡best ¡ways ¡of ¡ dis7nguishing ¡sources ¡of ¡discordance? ¡ ¡ ix. How ¡does ¡heterogeneity ¡in ¡evolu7onary ¡processes ¡interact ¡with ¡gene ¡tree ¡ discordance ¡in ¡phylogene7c ¡inference? ¡To ¡what ¡extent ¡do ¡difficul7es ¡such ¡ as ¡heterogeneity ¡in ¡sequence ¡evolu7on ¡compound ¡the ¡problems ¡of ¡gene ¡ tree ¡discordance? ¡ ¡ x. How ¡should ¡tradeoffs ¡among ¡sampling ¡longer ¡sequences, ¡more ¡genes ¡and ¡ more ¡individuals ¡per ¡species ¡affect ¡the ¡design ¡of ¡mul7locus ¡phylogene7c ¡ studies? ¡ ¡
hQps://xkcd.com/1211/ ¡