Using GVF for Clinical Annota3on of Personal Genomes . - - PowerPoint PPT Presentation
Using GVF for Clinical Annota3on of Personal Genomes . - - PowerPoint PPT Presentation
Using GVF for Clinical Annota3on of Personal Genomes . Barry Moore, Shawn Rynearson, Fiona Cunningham, Graham Ritchie, Karen Eilbeck Ensembl and
Challenges ¡of ¡translaConal ¡genomics ¡
- The ¡size, ¡scope ¡and ¡complexity ¡of ¡genomic ¡
data ¡provides ¡many ¡challenges ¡to ¡efficient ¡use ¡ in ¡medicine. ¡
- How ¡do ¡we ¡describe ¡a ¡personal ¡genome? ¡
- What ¡is ¡needed ¡for ¡inclusion ¡of ¡genomic ¡data ¡
into ¡the ¡EHR. ¡
- What ¡level ¡of ¡complexity ¡is ¡needed ¡for ¡each ¡
kind ¡of ¡user? ¡
Today’s ¡talk ¡
- MoCvaCon: ¡The ¡genomic ¡variant ¡informaCon ¡
boNle ¡neck ¡
- Sequence ¡AnnotaCon ¡– ¡the ¡Sequence ¡
Ontology ¡
- EHR ¡standards ¡
- GVFClin ¡is ¡a ¡variant ¡file ¡with ¡standards ¡
Technical ¡desiderata ¡for ¡the ¡integra3on ¡of ¡genomic ¡data ¡into ¡the ¡ medical ¡record ¡(Masys ¡et ¡al ¡2011) ¡ 1 ¡ Maintain ¡separaCon ¡of ¡primary ¡molecular ¡observaCons ¡from ¡the ¡ clinical ¡interpretaCons ¡of ¡those ¡data ¡ 2 ¡ Support ¡lossless ¡compression ¡from ¡primary ¡molecular ¡observaCons ¡ to ¡clinically ¡manageable ¡subsets ¡ 3 ¡ Maintain ¡linkage ¡of ¡molecular ¡observaCons ¡to ¡the ¡laboratory ¡ methods ¡used ¡to ¡generate ¡them ¡ 4 ¡ Support ¡compact ¡representaCon ¡of ¡clinically ¡acConable ¡subsets ¡for ¡
- pCmal ¡performance ¡
5 ¡ Simultaneously ¡support ¡human ¡viewable ¡formats ¡and ¡machine ¡ readable ¡formats ¡in ¡order ¡to ¡facilitate ¡implementaCon ¡of ¡decision ¡ support ¡rules ¡ 6 ¡ AnCcipate ¡fundamental ¡changes ¡in ¡the ¡understanding ¡of ¡human ¡ molecular ¡variaCon ¡ 7 ¡ Support ¡both ¡individual ¡clinical ¡ ¡care ¡and ¡discovery ¡science ¡
Kinds ¡of ¡genomic ¡test ¡
- Known ¡disease ¡variants ¡
– Single ¡gene ¡sequenced ¡ – Panel ¡of ¡genes ¡sequenced ¡
- Unknown ¡variant ¡sought ¡
– Exome ¡sequenced ¡ – Genome ¡sequence ¡ – Trio ¡family ¡genome/exome ¡sequenced ¡
NG ¡sequencing ¡bioinformaCcs ¡
- Base ¡calling ¡– ¡done ¡by ¡sequencing ¡machine ¡trace ¡
files ¡and ¡fastq ¡files ¡
- Read ¡mapping ¡(mappers ¡and ¡aligners) ¡BWA, ¡Bfast ¡
and ¡BowCe ¡produce ¡SAM/BAM ¡files ¡
- Alignment ¡polishing ¡– ¡remove ¡duplicate ¡reads ¡
and ¡re-‑align ¡around ¡indels ¡
- SNP ¡calling ¡uses ¡BAM ¡files, ¡produces ¡variant ¡files ¡
- Structural ¡variant ¡detecCon ¡– ¡large ¡deleCons ¡etc ¡
- Variant ¡prioriCzaCon ¡– ¡which ¡of ¡these ¡3 ¡million ¡
variants ¡caused ¡the ¡disorder? ¡
Clinician Orders NGS Exome
- r Genome
NGS Exome/Genome Sequencing Reads Aligned to Reference Assembly Variant Calling Pipeline Diagnostic Report Clinician Counsels and Treats Patient
HL7 Message FASTQ BAM/SAM VCF/GVF HL7 Message EHR
Genomics ¡ Medicine ¡ InformaCon ¡ boNleneck ¡
GVFclin
Annotate, ¡prioriCze, ¡analyze ¡
Current ¡state ¡of ¡the ¡art ¡
- Paper/PDF ¡geneCc ¡reports ¡
- The ¡tesCng ¡laboratory ¡faxes ¡or ¡emails ¡a ¡text ¡
write ¡up ¡of ¡the ¡result ¡and ¡interpretaCon ¡to ¡ the ¡clinic. ¡
- The ¡genomic ¡data ¡does ¡not ¡oden ¡enter ¡the ¡
- EHR. ¡
- The ¡HL7 ¡working ¡group ¡is ¡creaCng ¡a ¡drad ¡
geneCc ¡test ¡report. ¡
Inside ¡the ¡EHR ¡
Patient data archive Clinician Counsels and Treats Patient CDS system monitors genomic information: provides alerts Interpretation Diagnostic Report Variants in EHR Discovery Science
The ¡variants ¡need ¡to ¡be ¡computaConally ¡amenable ¡to ¡both ¡scienCfic ¡ discovery ¡such ¡as ¡cohort ¡collecCon, ¡and ¡to ¡Clinical ¡Decision ¡Support ¡ Systems ¡
Sequence ¡Ontology ¡provides ¡a ¡ community ¡developed ¡and ¡approved ¡ vocabulary ¡for ¡annotaCon ¡
- GVF ¡heavily ¡relies ¡on ¡the ¡terminology ¡
provided ¡by ¡SO ¡
- www.sequenceontology.org ¡
- SO ¡is ¡used ¡for ¡reference ¡sequence ¡annotaCon ¡ ¡
Sequence ¡Ontology ¡
- Funded ¡by ¡the ¡NHGRI ¡since ¡2003 ¡
- Grew ¡out ¡of ¡the ¡Gene ¡Ontology ¡project ¡
- Describes ¡genomic ¡features ¡such ¡as ¡the ¡parts ¡
- f ¡gene ¡models, ¡transposons, ¡assembly ¡
components, ¡ ¡experimental ¡results ¡relaCng ¡to ¡ genome ¡sequence ¡such ¡as ¡alignments ¡
- Describes ¡the ¡kinds ¡of ¡variants, ¡the ¡effect ¡of ¡
variants, ¡and ¡the ¡locaCon ¡of ¡variants ¡within ¡ exisCng ¡features. ¡
3 ¡aspects ¡for ¡variant ¡annotaCon ¡
- The ¡sequence ¡alteraCon ¡
- The ¡affected ¡feature ¡ ¡
- The ¡consequence ¡of ¡the ¡alteraCon ¡on ¡the ¡
feature ¡
Kinds ¡of ¡alteraCon ¡
structural_variant ¡ feature_variant ¡ feature_ablaCon ¡ feature_amplificaCon ¡ feature_fusion ¡ feature_elongaCon ¡ feature_truncaCon ¡ internal_elongaCon ¡ terminal_elongaCon ¡ transcript_translocaCon ¡ transcript_amplificaCon ¡ transcript_fusion ¡ regulatory_region_amplificaCon ¡ regulatory_region_fusion ¡ regulatory_region_ablaCon ¡ TFBS_ablaCon ¡ TFBS_amplificaCon ¡ feature_translocaCon ¡ transcript_ablaCon ¡ regulatory_region_translocaCon ¡ TFBS_translocaCon ¡ TFBS_fusion ¡ gene_variant ¡ regulatory_region_variant ¡ sequence_variant ¡ funcConal_variant ¡
feature_variant ¡ gene_variant ¡ regulatory_region_variant ¡ TFBS_variant ¡ transcript_variant ¡ exon_variant ¡ coding_sequence_variant ¡ frameshiG_variant ¡ inframe_variant ¡ synonymous_variant ¡ inframe_indel ¡ inframe_inser3on ¡ inframe_dele3on ¡ terminator_codon_variant ¡ stop_gained ¡ missense_variant ¡ stop_lost ¡ incomplete_terminal_codon_variant ¡ protein_altering_variant ¡ ini3ator_codon_variant ¡ stop_retained_variant ¡ frameshid_ ¡ elongaCon ¡ frameshid_ ¡ truncaCon ¡ splice_site_variant ¡ splice_acceptor_variant ¡ splice_donor_variant ¡ intron_variant ¡ nc_transcript_variant ¡ mature_miRNA_variant ¡ non_coding_exon_variant ¡ UTR_variant ¡ 5_prime_UTR_variant ¡ 3_prime_UTR_variant ¡ splicing_variant ¡ splice_region_variant ¡ 5KB_upstream_variant ¡ 5KB_downstream_variant ¡ NMD_transcript_variant ¡ upstream_gene_variant ¡ 2KB_upstream_variant ¡ downstream_gene_variant ¡ 500B_downstream_variant ¡ complex_change_in_transcript ¡
ExisCng ¡standards ¡in ¡the ¡EHR ¡
- Especially ¡important ¡now ¡because ¡of ¡the ¡
HITEC ¡act. ¡Providers ¡must ¡reach ¡a ¡set ¡of ¡goals ¡ to ¡get ¡subsidy. ¡
- One ¡of ¡the ¡goals ¡is ¡to ¡use ¡standards ¡such ¡as: ¡
– LOINC ¡-‑ ¡to ¡idenCfy ¡tests ¡ – SNOMED-‑CT ¡-‑ ¡name ¡diseases ¡etc. ¡ – RxNorm ¡-‑ ¡name ¡drugs ¡
- Goes ¡by ¡the ¡name ¡of ¡‘meaningful ¡use’ ¡
TranslaCon ¡to ¡health ¡record ¡
- Integrate ¡research ¡type ¡data ¡with ¡established ¡
EHR ¡ ¡
- Not ¡so ¡easy ¡as ¡EHR ¡uses ¡established ¡non ¡
genomic ¡standards ¡and ¡research ¡is ¡a ¡moving ¡
- target. ¡
- Following ¡HL7 ¡clinical ¡genomics ¡
recommendaCons ¡for ¡incorporaCng ¡genomic ¡ data ¡into ¡EHR. ¡
GVFClin ¡is ¡an ¡annotated ¡variant ¡file ¡
- Variant ¡files ¡condense ¡the ¡whole ¡genome ¡into ¡list ¡
- f ¡annotated ¡variants ¡(3 ¡billion ¡bases ¡to ¡3 ¡million ¡
changes) ¡
- VCF ¡
hNp://www.1000genomes.org/wiki/Analysis/ Variant%20Call%20Format/vcf-‑variant-‑call-‑ format-‑version-‑41 ¡
- GVF ¡
hNp://www.sequenceontology.org/resources/ gvf.html ¡ ¡
- Currency ¡for ¡individual ¡variant ¡data ¡
- Each ¡genome ¡has ¡3 ¡billion ¡bases ¡
- Each ¡genome ¡has ¡3 ¡million ¡differences ¡
compared ¡to ¡the ¡reference ¡
Variant ¡Files ¡
Not ¡exactly ¡EHR-‑ready ¡
¡# ¡Soap ¡SNP ¡
chr1 ¡SoapSNP ¡SNP ¡4793 ¡4793 ¡25 ¡+ ¡. ¡ID=YHSNP0128643; ¡status=novel; ¡ref=A; ¡allele=A/G; ¡support1=48; ¡support2=26; ¡ chr1 ¡SoapSNP ¡SNP ¡6434 ¡6434 ¡48 ¡+ ¡. ¡ID=YHSNP0128644; ¡status=novel; ¡ref=G; ¡allele=A/G; ¡support1=10; ¡support2=11; ¡ chr1 ¡SoapSNP ¡SNP ¡93896 ¡93896 ¡51 ¡+ ¡. ¡ID=rs4287120; ¡status=dbSNP; ¡ref=T; ¡allele=C/T; ¡support1=5; ¡support2=4; ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡locaCon=MSTB1:LTR/MaLR; ¡ ¡# ¡Venter ¡Genome ¡SNP ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡1103675000013 ¡ ¡ ¡heterozygous_SNP ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡556001 ¡ ¡556002 ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡ ¡ ¡ ¡ ¡ ¡ ¡A/C;RMR=0;TR=0 ¡ ¡Method1 ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡1103675000017 ¡ ¡ ¡homozygous_SNP ¡ ¡652719 ¡ ¡652720 ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡ ¡ ¡ ¡ ¡ ¡ ¡G/A;RMR=0;TR=1 ¡ ¡Method1 ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡1103675000019 ¡ ¡ ¡homozygous_SNP ¡ ¡694229 ¡ ¡694230 ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡ ¡ ¡ ¡ ¡ ¡ ¡T/C;RMR=1;TR=0 ¡ ¡Method1 ¡ ¡# ¡Watson ¡Genome ¡SNP ¡ ¡BJW-‑1117373 ¡chr1 ¡41921 ¡G ¡C ¡. ¡novel ¡. ¡2 ¡0 ¡4 ¡het ¡ ¡BJW-‑1117523 ¡chr1 ¡42101 ¡T ¡G ¡Y ¡rs2691277.1 ¡. ¡1 ¡0 ¡1 ¡? ¡ BJW-‑1119675 ¡chr1 ¡45408 ¡C ¡T ¡Y ¡rs28396308 ¡. ¡3 ¡0 ¡3 ¡. ¡ ¡
¡# ¡Korean ¡Genome ¡SNP ¡ ¡chr10 ¡ ¡56397 ¡C ¡CT ¡rs12262442 ¡28 ¡C/T ¡17 ¡11 ¡ ¡chr10 ¡ ¡61776 ¡T ¡CT ¡rs61838967 ¡15 ¡T/C ¡7 ¡8 ¡ ¡chr10 ¡ ¡65803 ¡T ¡CT ¡KOREFSNP1 ¡27 ¡T/C ¡19 ¡8 ¡ ¡# ¡Complete ¡Genomics ¡SNP ¡ ¡6,chr1,31843,31844,snp,snp,A,G,G,235 ¡ ¡21,chr1,36532,36533,snp,snp,A,G,G,36 ¡ ¡23,chr1,36970,36971,snp,snp,G,C,C,109 ¡
Standardizing ¡the ¡semanCcs ¡of ¡variant ¡ annotaCon ¡
- GVF ¡uses ¡ontologies ¡to ¡capture ¡the: ¡
– AlteraCon ¡(SO) ¡ – Feature ¡intersected ¡(SO) ¡ – Effect ¡of ¡alteraCon ¡(SO) ¡ – Phenotype ¡of ¡alteraCon ¡and ¡individual ¡ hNp://sequenceontology.org/wiki/index.php/ Using_Phenotype_Ontologies_in_GVF ¡ ¡ ¡
- GVFClin ¡also ¡uses ¡biomedical ¡informaCcs ¡
standards ¡for ¡EHR ¡compaCbility ¡
Kinds ¡of ¡locaCon ¡of ¡an ¡alteraCon ¡
- A ¡variant ¡can ¡fall ¡in ¡any ¡annotated ¡feature. ¡
The ¡most ¡useful ¡features ¡in ¡annotaCon ¡are ¡ genic ¡(coding ¡region, ¡ncRNA, ¡intron, ¡splice ¡ site) ¡and ¡intergenic. ¡
- In ¡GVFClin, ¡if ¡there ¡is ¡an ¡intersected ¡feature ¡
with ¡a ¡RefSeq ¡ID, ¡or ¡LRG ¡we ¡aNach ¡that ¡
- informaCon. ¡ ¡This ¡usually ¡means ¡that ¡each ¡
genic ¡variant ¡that ¡we ¡annotate ¡has ¡a ¡mRNA ¡ file ¡that ¡can ¡be ¡downloaded ¡from ¡the ¡NCBI ¡
##gvf-version 1.06 ##genome-build UCSC hg19 ##individual-id HG00096; ##genetic-analysis-panel ID=A1B;Disease_assesed=Cystic fibrosis;Disease_interept=Positive; ##genetic-analysis_panel ID=C34;Medication_assesed=warfarin;Drug_metabolism_interpret=Intermediate metabolizer; ##genetic-analysis_panel ID=7LR;Medication_assesed=mercaptopurine;Drug_efficacy_interpret=Benign; Chr10 GATK SNV 96702047 96702047 69 + . ID=SNV_0123;Variant_seq=C,A;Reference_seq=C;Clin_gene=CYP2C9;Clin_transcript=NM_000771.3; Clin_variant_id=rs1799853;Clin_HGVS_DNA=NC_000010.10:g.96702047C>A;Clin_HGVS_protein= NP_000762.2:p.Arg144Cys;Clin_variant_type=Substitution;Clin_aa_change_type=Missense; Clin_allelic_state=Heterozygous;Clin_drug_metabolism_interpret=warfarin:Intermediate Metabolizer; Clin_drug_efficacy_interpret=warfarin:Resistant;Variant_effect=missense_codon 1 mRNA NM_000771.3; Clin_genomic_reference=NC_000010.10 Chr6 GATK SNV 18143955 18143955 47 + . ID=SNV_0456;Variant_seq=A;Reference_seq=C;Clin_gene=TPMT;Clin_transcript=NM_000367.2; Clin_variant_id=rs1800462;Clin_variant_type=Wild Type;Clin_aa_change_type=Wild Type; Clin_allelic_state=Homozygous;Clin_drug_efficacy_interpret=mercaptopurine:Benign; Clin_genomic_reference=NC_000006.11 Chr7 GATK deletion 117267766 117267766 39 + . ID=SNV_0789;Variant_seq=-;Reference_seq=C;Clin_gene=CFTR;Clin_transcript=NM_000492.3; Clin_variant_id=rs121908811;Clin_HGVS_DNA=NC_000007.13:g.117267766delC;Clin_HGVS_protein= NP_000483.3:p.Thr1220Lysfs;Clin_variant_type=Deletion;Clin_aa_change_type=Frameshift; Clin_allelic_state=Heterozygous;Clin_disease_interpret=Cystic fibrosis:Positive; Clin_genomic_reference=NC_000007.13 ¡
HGNC ¡ REFSEQ ¡ SNOMED ¡CT ¡ HGVS ¡ LOINC ¡ DBSNP ¡
ComputaConally ¡accessible ¡variants ¡
- Different ¡levels ¡of ¡data ¡captured ¡in ¡a ¡single ¡
- file. ¡
- Scoped ¡to ¡different ¡users ¡needs ¡
GVF ¡in ¡the ¡community ¡
- Ensembl ¡variants ¡are ¡named ¡using ¡SO ¡terms ¡
and ¡GVF ¡files ¡are ¡provided ¡ hNp://www.ensembl.info/blog/2012/08/06/ variaCon-‑consequences/ ¡ ¡
- NCBI ¡(dbVar ¡annotates ¡with ¡SO ¡terms ¡and ¡
releases ¡GVF, ¡ClinVar ¡annotates ¡with ¡SO ¡ terms) ¡
- VAAST ¡probabilisCc ¡disease ¡gene ¡finder ¡
- Omicia ¡personal ¡genome ¡analysis ¡company ¡
Thanks ¡to ¡
- My ¡Lab: ¡Barry ¡Moore, ¡Sean ¡Rynearson, ¡Shale ¡
Dames, ¡Begum ¡Durgahee, ¡Nicole ¡Ruiz, ¡Keith ¡ Simmon, ¡MeiYee ¡Law ¡
- My ¡chair: ¡Joyce ¡Mitchell ¡
- Omicia: ¡MarCn ¡Reese ¡
- Ensembl: ¡Fiona ¡Cunningham, ¡Graham ¡Ritchie ¡
and ¡MaNhew ¡Hurles. ¡
- Yandell ¡Lab ¡
Variant ¡File ¡Survey: ¡
- Please ¡take ¡our ¡variant ¡file ¡survey ¡
- hNps://www.surveymonkey.com/s/SQZJYTD ¡