CS 680: Assembly and Analysis of Sequencing Data Fall - - PowerPoint PPT Presentation
CS 680: Assembly and Analysis of Sequencing Data Fall - - PowerPoint PPT Presentation
CS 680: Assembly and Analysis of Sequencing Data Fall 2012 August 21st, 2012 Logis@cs of the Course Logis@cs About the Course Instructor: Chris@na
Logis@cs ¡of ¡the ¡Course ¡
Logis@cs ¡About ¡the ¡Course ¡
- Instructor: ¡Chris@na ¡Boucher ¡
- email: ¡cboucher@cs.colostate.edu ¡
- Office: ¡CSB ¡464 ¡
- Office ¡hours: ¡11 ¡ ¡
- course ¡website: ¡www.cs.colostate.edu/~cs680 ¡
- Weekly ¡readings ¡
- Schedule ¡of ¡paper ¡presenta@ons ¡
- 4 ¡credits ¡(3 ¡lecture, ¡1 ¡lab): ¡lab ¡is ¡the ¡course ¡
- project. ¡ ¡
¡
Goals ¡of ¡the ¡Course ¡
- Working ¡at ¡the ¡interface ¡of ¡computer ¡science ¡
and ¡biology: ¡
– New ¡mo@va@on ¡ – New ¡data ¡and ¡new ¡demands ¡ – Real ¡impact ¡
- Introduc@on ¡to ¡main ¡issues ¡in ¡computa@onal ¡
- biology. ¡
- Opportunity ¡to ¡interact ¡with ¡algorithms, ¡tools, ¡
data ¡in ¡current ¡prac@ce. ¡
Course ¡Outline ¡
- Mo@va@on ¡and ¡Introduc@on ¡to ¡biology ¡(week ¡1). ¡
- Challenges ¡in ¡genome ¡assembly ¡(week ¡2 ¡and ¡3): ¡
– Importance ¡and ¡purpose ¡of ¡whole ¡genome ¡sequencing. ¡ – First ¡genera@on ¡sequencing ¡data ¡and ¡computa@onal ¡ approaches ¡to ¡assembly. ¡ – Next ¡genera@on ¡sequencing ¡methods ¡and ¡the ¡de ¡Bruijn ¡ graph ¡approach. ¡ – Specialized ¡sequencing ¡problems: ¡single-‑cell ¡sequencing, ¡
- resequencing. ¡
Course ¡Outline ¡
- SNPs ¡and ¡other ¡structural ¡varia@ons ¡(week ¡4): ¡
– Why ¡are ¡structural ¡varia@ons ¡important ¡to ¡detect? ¡ – Calling ¡SNPs ¡with ¡Samtools. ¡ – Detec@on ¡of ¡larger ¡structural ¡varia@ons: ¡current ¡method. ¡
- Short ¡sequence ¡analysis ¡of ¡RNA ¡(week ¡5) ¡
– What ¡is ¡the ¡difference ¡between ¡RNA ¡and ¡DNA? ¡ – RNA-‑seq ¡data ¡analysis: ¡tools ¡and ¡algorithms. ¡
- Paper ¡presenta@ons ¡and ¡project ¡presenta@ons. ¡
¡
Grading ¡
- Course ¡project: ¡50% ¡
- Presenta@on(s): ¡20% ¡
- Class ¡par@cipa@on: ¡10% ¡
- Paper ¡reviews: ¡20% ¡
¡ The ¡grading ¡breakdown ¡is ¡found ¡on ¡the ¡website. ¡
Paper ¡Presenta@ons ¡
- Each ¡student ¡or ¡course ¡par@cipant ¡will ¡give ¡
- ne ¡or ¡two ¡paper ¡presenta@ons. ¡ ¡ ¡
- A ¡list ¡of ¡the ¡papers ¡will ¡be ¡given ¡out ¡in ¡the ¡
next ¡lecture ¡and ¡you ¡can ¡sign ¡up ¡or ¡suggest ¡a ¡ related ¡paper ¡that ¡you ¡would ¡like ¡to ¡present. ¡ ¡ All ¡presented ¡papers ¡have ¡to ¡be ¡approved. ¡
- 50 ¡minute ¡presenta@on ¡+ ¡20 ¡minute ¡
- discussion. ¡ ¡
Paper ¡Reviews ¡
Address ¡the ¡following ¡ques@ons: ¡
- 1. What ¡is ¡the ¡paper ¡about? ¡
- 2. What ¡are ¡the ¡weaknesses ¡of ¡the ¡paper? ¡
- 3. What ¡is ¡an ¡extension ¡or ¡follow-‑up ¡study ¡
that ¡could ¡be ¡done? ¡
- Paper ¡reviews ¡have ¡to ¡be ¡emailed ¡to ¡me ¡or ¡
turned ¡in ¡on ¡paper ¡at ¡the ¡beginning ¡of ¡each ¡
- class. ¡
- One ¡to ¡two ¡pages ¡in ¡length. ¡
Class ¡Par@cipa@on ¡
- The ¡first ¡5 ¡weeks ¡are ¡lectures ¡and ¡you ¡
will ¡not ¡be ¡graded ¡on ¡class ¡par@cipa@on. ¡
- Each ¡student ¡and ¡par@cipant ¡is ¡expected ¡to ¡
read ¡the ¡paper ¡prior ¡to ¡class ¡and ¡par@cipate ¡in ¡ the ¡paper ¡discussion. ¡
- Reflec@ng ¡upon ¡the ¡paper ¡reviews ¡should ¡
make ¡the ¡class ¡par@cipa@on ¡easy. ¡ ¡
Class ¡Project ¡
- This ¡is ¡the ¡most ¡important ¡aspect ¡about ¡the ¡
course ¡and ¡therefore ¡should ¡involve ¡either ¡ ¡
– Non-‑trivial ¡use ¡of ¡bioinforma@c ¡tools. ¡ – Sofware ¡development ¡and ¡applica@on. ¡
- The ¡best ¡projects ¡can ¡be ¡submiged ¡to ¡a ¡
journal ¡of ¡conference. ¡
- Project ¡will ¡be ¡done ¡in ¡pairs ¡or ¡individually. ¡ ¡I ¡
recommend ¡pairing ¡off ¡with ¡someone ¡that ¡has ¡ a ¡different ¡background ¡than ¡you ¡do. ¡ ¡ ¡
Class ¡Project ¡Schedule ¡
- August ¡30: ¡sample ¡projects ¡will ¡be ¡given ¡out ¡
- September ¡6: ¡Submit ¡your ¡pairings. ¡
- September ¡25: ¡Submit ¡a ¡wrigen ¡project ¡
proposal ¡(3 ¡to ¡4 ¡pages). ¡
- September ¡27: ¡project ¡proposal ¡presenta@ons ¡
(audience ¡should ¡give ¡feedback). ¡
- December ¡6: ¡final ¡wrigen ¡projects ¡due. ¡
- December ¡4&6: ¡project ¡presenta@ons. ¡
Biology ¡Basics ¡
Introduc@on ¡to ¡Biology ¡
Two types of cells: Prokaryotes v.s. Eukaryotes
- Prokaryotes ¡ ¡
– No ¡nucleus ¡(bacteria ¡or ¡archaea) ¡ – Their ¡genomes ¡are ¡circular ¡ – Prokaryotes ¡do ¡not ¡have ¡a ¡nucleus, ¡mitochondria, ¡or ¡ any ¡other ¡membrane-‑bound ¡organelles ¡ – The ¡genome ¡in ¡a ¡prokaryote ¡is ¡held ¡within ¡a ¡DNA/ protein ¡complex ¡in ¡the ¡cytosol ¡called ¡the ¡nucleoid. ¡
- Eukaryotes ¡ ¡
– have ¡nucleus ¡(animal, ¡plants, ¡fungi) ¡ – Linear ¡genomes ¡with ¡mul@ple ¡chromosomes ¡in ¡pairs ¡
Prokaryotes ¡and ¡Eukaryotes, ¡con@nued ¡
Chromosome ¡for ¡E.Coli ¡ ¡ (Prokaryote) ¡ Chromosomes ¡for ¡Human ¡ ¡ (Eukaryote) ¡
Eukaryote ¡(Animal) ¡Cell ¡
Prokaryotes ¡and ¡Eukaryotes, ¡con@nued ¡
Prokaryotes Eukaryotes Single cell Single or multi cell No nucleus Nucleus No organelles Organelles One piece of circular DNA Chromosomes No mRNA post transcriptional modification Exons/Introns splicing
Gene@c ¡Material ¡for ¡Life ¡
DNA: ¡The ¡Code ¡of ¡Life ¡
- The ¡structure ¡and ¡the ¡four ¡genomic ¡legers ¡code ¡for ¡
all ¡living ¡organisms ¡ ¡
- Adenine, ¡Guanine, ¡Thymine, ¡and ¡Cytosine ¡which ¡pair ¡
A-‑T ¡and ¡C-‑G ¡on ¡complimentary ¡strands. ¡
DNA, ¡con@nued ¡
- DNA ¡has ¡a ¡double ¡helix ¡
structure ¡which ¡ composed ¡of ¡ ¡ ¡
– sugar ¡molecule ¡ – phosphate ¡group ¡ – and ¡a ¡base ¡(A,C,G,T) ¡
¡
- DNA ¡always ¡reads ¡from ¡
5’ ¡end ¡to ¡3’ ¡end ¡for ¡ transcrip@on ¡replica@on ¡ ¡
5’ ¡ATTTAGGCC ¡3’ ¡ 3’ ¡TAAATCCGG ¡5’ ¡
DNA ¡Replica@on ¡
- DNA ¡can ¡replicate ¡by ¡
splikng, ¡and ¡rebuilding ¡ each ¡strand. ¡
- Note ¡that ¡the ¡rebuilding ¡
- f ¡each ¡strand ¡uses ¡
slightly ¡different ¡ mechanisms ¡due ¡to ¡the ¡ 5’ ¡3’ ¡asymmetry, ¡but ¡ each ¡daughter ¡strand ¡is ¡ an ¡exact ¡replica ¡of ¡the ¡
- riginal ¡strand. ¡
¡
http://users.rcn.com/jkimball.ma.ultranet/BiologyPages/D/DNAReplication.html
Genotype/Phenotype ¡
- To ¡prevent ¡confusion ¡between ¡genes ¡(which ¡
are ¡inherited) ¡and ¡developmental ¡outcomes ¡ (which ¡are ¡not), ¡gene@cists ¡make ¡a ¡dis@nc@on ¡ between ¡the ¡genotype ¡and ¡the ¡phenotype ¡of ¡ an ¡organism ¡
– Genotype: ¡complete ¡set ¡of ¡genes ¡inherited ¡by ¡an ¡ individual ¡ ¡ – Phenotype: ¡all ¡aspects ¡of ¡the ¡individual’s ¡ physiology, ¡behavior, ¡and ¡ecological ¡rela@onships ¡
DNA ¡the ¡Gene@cs ¡Makeup ¡
- Genes ¡are ¡inherited ¡and ¡are ¡
expressed ¡
– genotype ¡(gene@c ¡makeup) ¡ – phenotype ¡(physical ¡ expression) ¡
- On ¡the ¡lef, ¡is ¡the ¡eye’s ¡
phenotypes ¡of ¡green ¡and ¡black ¡ eye ¡genes. ¡
- Two ¡organisms ¡whose ¡genes ¡differ ¡at ¡one ¡
locus ¡are ¡said ¡to ¡have ¡different ¡genotypes. ¡
- A ¡locus ¡(loci ¡for ¡plural) ¡is ¡the ¡specific ¡loca@on ¡
- f ¡a ¡gene ¡of ¡a ¡DNA ¡sequence ¡on ¡a ¡
- chromosome. ¡
- A ¡variant ¡of ¡the ¡DNA ¡sequence ¡at ¡a ¡given ¡
loca@on ¡is ¡called ¡a ¡allele. ¡
- The ¡ordered ¡list ¡of ¡loci ¡known ¡for ¡a ¡par@cular ¡
genome ¡is ¡called ¡a ¡gene4c ¡map. ¡ ¡
Diploid ¡and ¡polyploid ¡cells ¡whose ¡chromosomes ¡have ¡the ¡same ¡ allele ¡of ¡a ¡given ¡gene ¡at ¡some ¡locus ¡are ¡called ¡homozygous, ¡with ¡ respect ¡to ¡that ¡gene ¡(otherwise, ¡it ¡is ¡heterzygous). ¡ The ¡chromosomal ¡locus ¡of ¡a ¡ gene ¡might ¡be ¡wrigen ¡"6p21.3” ¡
- 6: ¡chromosome ¡number ¡
- p: ¡posi@on ¡on ¡the ¡
chromosome’s ¡short ¡arm ¡ (“p”) ¡or ¡long ¡arm ¡(“q”) ¡
- 21.3: ¡the ¡posi@on ¡on ¡the ¡
arm: ¡region ¡2, ¡band ¡1, ¡sub-‑ band ¡3. ¡The ¡bands ¡are ¡visible ¡ under ¡a ¡microscope ¡when ¡ the ¡chromosome ¡is ¡stained. ¡
¡
Genotype/Phenotype ¡
Phenotype: ¡ ¡ Blue ¡eyes ¡ Brown ¡eyes ¡ Genotype: ¡ ¡ Recessive: ¡bb ¡ Dominant: ¡Bb ¡or ¡BB ¡
- Pleiotropy: ¡when ¡one ¡gene ¡affects ¡many ¡
different ¡traits. ¡
- Polygenic ¡traits: ¡when ¡one ¡trait ¡is ¡governed ¡by ¡
mul@ple ¡genes, ¡which ¡maybe ¡on ¡the ¡same ¡ chromosome ¡or ¡on ¡different ¡chromosomes. ¡ ¡
– The ¡addi@ve ¡effects ¡of ¡numerous ¡genes ¡on ¡a ¡single ¡ phenotype ¡create ¡a ¡con@nuum ¡of ¡possible ¡
- utcomes. ¡ ¡
– Polygenic ¡traits ¡are ¡also ¡most ¡suscep@ble ¡to ¡ environmental ¡influences. ¡ ¡
Pleiotropy ¡in ¡humans: ¡Phenylketonuria ¡(PKU): ¡
A ¡disorder ¡that ¡is ¡caused ¡by ¡a ¡deficiency ¡of ¡the ¡enzyme ¡ phenylalanine ¡hydroxylase, ¡which ¡is ¡necessary ¡to ¡convert ¡the ¡ essen@al ¡amino ¡acid ¡phenylalanine ¡to ¡tyrosine. ¡ ¡ A ¡defect ¡in ¡the ¡single ¡gene ¡ that ¡codes ¡for ¡this ¡enzyme ¡ therefore ¡results ¡in ¡the ¡ mul@ple ¡phenotypes ¡ associated ¡with ¡PKU, ¡ including ¡mental ¡retarda@on, ¡ eczema, ¡and ¡pigment ¡defects ¡ that ¡make ¡affected ¡ individuals ¡lighter ¡skinned ¡ ¡
Polygenic ¡inheritance ¡in ¡humans: ¡Countless ¡traits ¡
- Height ¡is ¡controlled ¡by ¡polygenes ¡for ¡skeleton ¡height, ¡but ¡their ¡
effect ¡may ¡be ¡affected ¡by ¡malnutri@on, ¡injury, ¡and ¡disease. ¡
- Weight, ¡skin ¡color, ¡and ¡intelligence. ¡
- Birth ¡defects ¡like ¡clubfoot, ¡clef ¡palate, ¡or ¡neural ¡tube ¡defects ¡
are ¡also ¡the ¡result ¡of ¡mul@ple ¡gene ¡interac@ons. ¡
- Complex ¡diseases ¡and ¡traits ¡have ¡a ¡tendency ¡to ¡have ¡low ¡
heritability ¡(tendency ¡to ¡be ¡inherited) ¡compared ¡to ¡single ¡gene ¡ disorders ¡(i.e. ¡sickle-‑cell ¡anemia, ¡cys@c ¡fibrosis, ¡PKU, ¡ Hemophelia, ¡many ¡extremely ¡rare ¡gene@c ¡disorders). ¡
¡
Selec@on ¡
- Some ¡genes ¡may ¡be ¡subject ¡to ¡selec4on, ¡where ¡
individuals ¡with ¡advantages ¡or ¡“adap@ve” ¡traits ¡ tend ¡to ¡be ¡more ¡successful ¡than ¡their ¡peers ¡ reproduc@vely ¡
- When ¡these ¡traits ¡have ¡a ¡gene@c ¡basis, ¡selec@on ¡
can ¡increase ¡the ¡prevalence ¡of ¡those ¡traits, ¡ because ¡the ¡offspring ¡will ¡inherit ¡those ¡traits. ¡ This ¡may ¡correlate ¡with ¡the ¡organism's ¡ability ¡to ¡ survive ¡in ¡its ¡environment. ¡
- Several ¡different ¡genotypes ¡(and ¡possibly ¡
phenotypes) ¡may ¡then ¡coexist ¡in ¡a ¡popula@on. ¡In ¡ this ¡case, ¡their ¡gene@c ¡differences ¡are ¡called ¡
- polymorphisms. ¡
Gene@c ¡Muta@on ¡
- The ¡simplest ¡is ¡the ¡point ¡muta@on ¡or ¡subs@tu@on; ¡here, ¡a ¡single ¡
nucleo@de ¡in ¡the ¡genome ¡is ¡changed ¡(single ¡nucleo4de ¡ polymorphisms ¡(SNPs)) ¡
- Other ¡types ¡of ¡muta@ons ¡include ¡the ¡following: ¡
– Inser4on. ¡A ¡piece ¡of ¡DNA ¡is ¡inserted ¡into ¡the ¡genome ¡at ¡a ¡ certain ¡posi@on ¡ – Dele4on. ¡A ¡piece ¡of ¡DNA ¡is ¡cut ¡from ¡the ¡genome ¡at ¡a ¡certain ¡ posi@on ¡ – Inversion. ¡A ¡piece ¡of ¡DNA ¡is ¡cut, ¡flipped ¡around ¡and ¡then ¡re-‑ inserted, ¡thereby ¡conver@ng ¡it ¡into ¡its ¡complement ¡ – Transloca4on. ¡A ¡piece ¡of ¡DNA ¡is ¡moved ¡to ¡a ¡different ¡posi@on. ¡ – Duplica4on. ¡A ¡copy ¡of ¡a ¡piece ¡of ¡DNA ¡is ¡inserted ¡into ¡the ¡ genome ¡
Muta@ons ¡and ¡Selec@on ¡
- While ¡muta@ons ¡can ¡be ¡detrimental ¡to ¡the ¡
affected ¡individual, ¡they ¡can ¡also ¡in ¡rare ¡cases ¡be ¡ beneficial; ¡more ¡frequently, ¡neutral. ¡
- Ofen ¡muta@ons ¡have ¡no ¡or ¡a ¡negligible ¡impact ¡
- n ¡survival ¡and ¡reproduc@on. ¡
- Thereby ¡muta@ons ¡can ¡increase ¡the ¡gene4c ¡
diversity ¡of ¡a ¡popula@on, ¡that ¡is, ¡the ¡number ¡of ¡ present ¡polymorphisms. ¡ ¡
- In ¡combina@on ¡with ¡selec@on, ¡this ¡allow ¡a ¡
species ¡to ¡adapt ¡to ¡changing ¡environmental ¡ condi@ons ¡and ¡to ¡survive ¡in ¡the ¡long ¡term. ¡
Raw ¡Sequence ¡Data ¡
- 4 ¡bases: ¡A, ¡C, ¡G, ¡T ¡+ ¡other ¡(i.e. ¡N ¡= ¡any, ¡R ¡= ¡G ¡or ¡A ¡
(purine), ¡Y ¡= ¡T ¡or ¡(pyrimidine)) ¡
– kb ¡(= ¡kbp) ¡= ¡kilo ¡base ¡pairs ¡= ¡1,000 ¡bp ¡ – Mb ¡= ¡mega ¡base ¡pairs ¡= ¡1,000,000 ¡bp ¡ ¡ – Gb ¡= ¡giga ¡base ¡pairs ¡= ¡1,000,000,000 ¡bp. ¡
- Size:
¡ ¡ – E. ¡Coli ¡4.6Mbp ¡(4,600,000) ¡ – Fish ¡130 ¡Gbp ¡(130,000,000,000) ¡ – Paris ¡japonica ¡(Plant) ¡150 ¡Gbp ¡ – Human ¡3.2Gbp ¡ ¡
Fasta ¡File ¡
- A ¡sequence ¡in ¡FASTA ¡format ¡begins ¡with ¡a ¡single-‑line ¡
descrip@on, ¡followed ¡by ¡lines ¡of ¡sequence ¡data ¡(file ¡extension ¡ is ¡.fa). ¡ ¡
- It ¡is ¡recommended ¡that ¡all ¡lines ¡of ¡text ¡be ¡shorter ¡than ¡80 ¡
characters ¡in ¡length. ¡
Fastq ¡File ¡
- Typically ¡contain ¡4 ¡lines: ¡
– Line ¡1 ¡begins ¡with ¡a ¡'@' ¡character ¡and ¡is ¡followed ¡by ¡a ¡sequence ¡ iden@fier ¡and ¡an ¡op#onal ¡descrip@on. ¡ – Line ¡2 ¡is ¡the ¡sequence. ¡ – Line ¡3 ¡is ¡the ¡delimiter ¡‘+’, ¡with ¡an ¡op@onal ¡descrip@on. ¡ – Line ¡4 ¡is ¡the ¡quality ¡score. ¡ – file ¡extension ¡is ¡.fq ¡
@SEQ_ID GATTTGGGGTTCAAAGCTTCAAAGCTTCAAAGC + !''*((((***+))%%%++++++++!!!++***
Proteins: ¡Primary ¡Structure ¡
- Pep@de ¡sequence: ¡
– Sequence ¡of ¡amino ¡acids ¡= ¡sequences ¡from ¡a ¡20 ¡ leger ¡alphabet ¡(i.e. ¡ACDEFGHIKLMNPQRSTVWY) – Average ¡protein ¡has ¡~300 ¡amino ¡acids ¡ – Typically ¡stored ¡as ¡fasta ¡files ¡
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY
Proteins: ¡Secondary ¡Structure ¡
- Polypep@de ¡chains ¡fold ¡into ¡regular ¡local ¡
structures ¡
– Common ¡types: ¡alpha ¡helix, ¡beta ¡sheet, ¡turn, ¡loop ¡ – Defined ¡by ¡the ¡crea@on ¡of ¡hydrogen ¡bonds ¡
Proteins: ¡Ter@ary ¡Structure ¡
- 3D ¡structure ¡of ¡a ¡polypep@de ¡sequence ¡
– interac@ons ¡between ¡non-‑local ¡and ¡ ¡ foreign ¡atoms ¡
Proteins: ¡Quaternary ¡Structure ¡
- Arrangement ¡of ¡protein ¡subunits ¡
Genes ¡and ¡Proteins ¡
- One ¡gene ¡encodes ¡one ¡protein ¡and ¡begins ¡with ¡
start ¡codon ¡(e.g. ¡ATG), ¡then ¡each ¡three ¡code ¡one ¡ amino ¡acid. ¡Then ¡a ¡stop ¡codon ¡(e.g. ¡TGA) ¡signifies ¡ end ¡of ¡the ¡gene. ¡
- In ¡the ¡middle ¡of ¡a ¡(eukaryo@c) ¡gene, ¡there ¡are ¡
segments ¡that ¡are ¡spliced ¡out ¡during ¡ transcrip@on. ¡ ¡
– Introns: ¡segments ¡that ¡are ¡spliced ¡out ¡ ¡ – Exons: ¡segments ¡that ¡are ¡kept. ¡
- Detec@ng ¡the ¡introns ¡and ¡exons ¡is ¡a ¡task ¡for ¡gene ¡
- finding. ¡
Conclusions ¡
Challenges ¡in ¡Bioinforma@cs ¡
- Need ¡to ¡feel ¡comfortable ¡in ¡
interdisciplinary ¡area ¡
- Depend ¡on ¡others ¡for ¡primary ¡data ¡
- Need ¡to ¡address ¡important ¡biological ¡and ¡
computer ¡science ¡problems ¡
Basic ¡Steps ¡in ¡Bioinforma@cs ¡Research ¡
- 1. Data ¡management ¡problem: ¡storage, ¡transfer, ¡
transforma@on ¡(Informa@on ¡Technology) ¡
- 2. Data ¡analysis ¡problem: ¡mapping, ¡assembly ¡
– algorithm ¡scaling ¡(Computer ¡Science) ¡
- 3. Sta@s@cal ¡challenges: ¡tradi@onal ¡sta@s@cs ¡is ¡not ¡
well ¡suited ¡for ¡modeling ¡systema@c ¡errors ¡over ¡ large ¡number ¡of ¡observa@ons ¡(Biosta@s@cs) ¡
- 4. Biological ¡hypothesis ¡tes@ng ¡
– data ¡interpreta@on ¡(Life ¡Science) ¡
Basic ¡Skills ¡ ¡
- Ar@ficial ¡intelligence ¡and ¡machine ¡learning ¡
- Sta@s@cs ¡and ¡probability ¡
- Algorithms ¡
- Databases ¡
- Programming ¡
- Biology/Chemistry ¡knowledge ¡
Genomics: ¡
- ‑
Assembly ¡ ¡
- ‑
Detec@on ¡of ¡varia@on ¡
- ‑
GWAS ¡ RNA: ¡
- ‑
Gene ¡expression ¡
- ‑
Transcriptome ¡assembly ¡ ¡
- ‑
Pathway ¡analysis ¡ Protein: ¡
- ‑
Mass ¡spectrometry ¡
- ‑
Structure ¡predic@on ¡ ¡
- ‑
Protein-‑Protein ¡ interac@on ¡ ¡