CS 680: Assembly and Analysis of Sequencing Data Fall - - PowerPoint PPT Presentation

cs 680 assembly and analysis of sequencing data
SMART_READER_LITE
LIVE PREVIEW

CS 680: Assembly and Analysis of Sequencing Data Fall - - PowerPoint PPT Presentation

CS 680: Assembly and Analysis of Sequencing Data Fall 2012 August 21st, 2012 Logis@cs of the Course Logis@cs About the Course Instructor: Chris@na


slide-1
SLIDE 1

CS ¡680: ¡Assembly ¡and ¡Analysis ¡of ¡ Sequencing ¡Data ¡

Fall ¡2012 ¡ August ¡21st, ¡2012 ¡

slide-2
SLIDE 2

Logis@cs ¡of ¡the ¡Course ¡

slide-3
SLIDE 3

Logis@cs ¡About ¡the ¡Course ¡

  • Instructor: ¡Chris@na ¡Boucher ¡
  • email: ¡cboucher@cs.colostate.edu ¡
  • Office: ¡CSB ¡464 ¡
  • Office ¡hours: ¡11 ¡ ¡
  • course ¡website: ¡www.cs.colostate.edu/~cs680 ¡
  • Weekly ¡readings ¡
  • Schedule ¡of ¡paper ¡presenta@ons ¡
  • 4 ¡credits ¡(3 ¡lecture, ¡1 ¡lab): ¡lab ¡is ¡the ¡course ¡
  • project. ¡ ¡

¡

slide-4
SLIDE 4

Goals ¡of ¡the ¡Course ¡

  • Working ¡at ¡the ¡interface ¡of ¡computer ¡science ¡

and ¡biology: ¡

– New ¡mo@va@on ¡ – New ¡data ¡and ¡new ¡demands ¡ – Real ¡impact ¡

  • Introduc@on ¡to ¡main ¡issues ¡in ¡computa@onal ¡
  • biology. ¡
  • Opportunity ¡to ¡interact ¡with ¡algorithms, ¡tools, ¡

data ¡in ¡current ¡prac@ce. ¡

slide-5
SLIDE 5

Course ¡Outline ¡

  • Mo@va@on ¡and ¡Introduc@on ¡to ¡biology ¡(week ¡1). ¡
  • Challenges ¡in ¡genome ¡assembly ¡(week ¡2 ¡and ¡3): ¡

– Importance ¡and ¡purpose ¡of ¡whole ¡genome ¡sequencing. ¡ – First ¡genera@on ¡sequencing ¡data ¡and ¡computa@onal ¡ approaches ¡to ¡assembly. ¡ – Next ¡genera@on ¡sequencing ¡methods ¡and ¡the ¡de ¡Bruijn ¡ graph ¡approach. ¡ – Specialized ¡sequencing ¡problems: ¡single-­‑cell ¡sequencing, ¡

  • resequencing. ¡
slide-6
SLIDE 6

Course ¡Outline ¡

  • SNPs ¡and ¡other ¡structural ¡varia@ons ¡(week ¡4): ¡

– Why ¡are ¡structural ¡varia@ons ¡important ¡to ¡detect? ¡ – Calling ¡SNPs ¡with ¡Samtools. ¡ – Detec@on ¡of ¡larger ¡structural ¡varia@ons: ¡current ¡method. ¡

  • Short ¡sequence ¡analysis ¡of ¡RNA ¡(week ¡5) ¡

– What ¡is ¡the ¡difference ¡between ¡RNA ¡and ¡DNA? ¡ – RNA-­‑seq ¡data ¡analysis: ¡tools ¡and ¡algorithms. ¡

  • Paper ¡presenta@ons ¡and ¡project ¡presenta@ons. ¡

¡

slide-7
SLIDE 7

Grading ¡

  • Course ¡project: ¡50% ¡
  • Presenta@on(s): ¡20% ¡
  • Class ¡par@cipa@on: ¡10% ¡
  • Paper ¡reviews: ¡20% ¡

¡ The ¡grading ¡breakdown ¡is ¡found ¡on ¡the ¡website. ¡

slide-8
SLIDE 8

Paper ¡Presenta@ons ¡

  • Each ¡student ¡or ¡course ¡par@cipant ¡will ¡give ¡
  • ne ¡or ¡two ¡paper ¡presenta@ons. ¡ ¡ ¡
  • A ¡list ¡of ¡the ¡papers ¡will ¡be ¡given ¡out ¡in ¡the ¡

next ¡lecture ¡and ¡you ¡can ¡sign ¡up ¡or ¡suggest ¡a ¡ related ¡paper ¡that ¡you ¡would ¡like ¡to ¡present. ¡ ¡ All ¡presented ¡papers ¡have ¡to ¡be ¡approved. ¡

  • 50 ¡minute ¡presenta@on ¡+ ¡20 ¡minute ¡
  • discussion. ¡ ¡
slide-9
SLIDE 9

Paper ¡Reviews ¡

Address ¡the ¡following ¡ques@ons: ¡

  • 1. What ¡is ¡the ¡paper ¡about? ¡
  • 2. What ¡are ¡the ¡weaknesses ¡of ¡the ¡paper? ¡
  • 3. What ¡is ¡an ¡extension ¡or ¡follow-­‑up ¡study ¡

that ¡could ¡be ¡done? ¡

  • Paper ¡reviews ¡have ¡to ¡be ¡emailed ¡to ¡me ¡or ¡

turned ¡in ¡on ¡paper ¡at ¡the ¡beginning ¡of ¡each ¡

  • class. ¡
  • One ¡to ¡two ¡pages ¡in ¡length. ¡
slide-10
SLIDE 10

Class ¡Par@cipa@on ¡

  • The ¡first ¡5 ¡weeks ¡are ¡lectures ¡and ¡you ¡

will ¡not ¡be ¡graded ¡on ¡class ¡par@cipa@on. ¡

  • Each ¡student ¡and ¡par@cipant ¡is ¡expected ¡to ¡

read ¡the ¡paper ¡prior ¡to ¡class ¡and ¡par@cipate ¡in ¡ the ¡paper ¡discussion. ¡

  • Reflec@ng ¡upon ¡the ¡paper ¡reviews ¡should ¡

make ¡the ¡class ¡par@cipa@on ¡easy. ¡ ¡

slide-11
SLIDE 11

Class ¡Project ¡

  • This ¡is ¡the ¡most ¡important ¡aspect ¡about ¡the ¡

course ¡and ¡therefore ¡should ¡involve ¡either ¡ ¡

– Non-­‑trivial ¡use ¡of ¡bioinforma@c ¡tools. ¡ – Sofware ¡development ¡and ¡applica@on. ¡

  • The ¡best ¡projects ¡can ¡be ¡submiged ¡to ¡a ¡

journal ¡of ¡conference. ¡

  • Project ¡will ¡be ¡done ¡in ¡pairs ¡or ¡individually. ¡ ¡I ¡

recommend ¡pairing ¡off ¡with ¡someone ¡that ¡has ¡ a ¡different ¡background ¡than ¡you ¡do. ¡ ¡ ¡

slide-12
SLIDE 12

Class ¡Project ¡Schedule ¡

  • August ¡30: ¡sample ¡projects ¡will ¡be ¡given ¡out ¡
  • September ¡6: ¡Submit ¡your ¡pairings. ¡
  • September ¡25: ¡Submit ¡a ¡wrigen ¡project ¡

proposal ¡(3 ¡to ¡4 ¡pages). ¡

  • September ¡27: ¡project ¡proposal ¡presenta@ons ¡

(audience ¡should ¡give ¡feedback). ¡

  • December ¡6: ¡final ¡wrigen ¡projects ¡due. ¡
  • December ¡4&6: ¡project ¡presenta@ons. ¡
slide-13
SLIDE 13

Biology ¡Basics ¡

slide-14
SLIDE 14

Introduc@on ¡to ¡Biology ¡

slide-15
SLIDE 15
slide-16
SLIDE 16

Two types of cells: Prokaryotes v.s. Eukaryotes

slide-17
SLIDE 17
  • Prokaryotes ¡ ¡

– No ¡nucleus ¡(bacteria ¡or ¡archaea) ¡ – Their ¡genomes ¡are ¡circular ¡ – Prokaryotes ¡do ¡not ¡have ¡a ¡nucleus, ¡mitochondria, ¡or ¡ any ¡other ¡membrane-­‑bound ¡organelles ¡ – The ¡genome ¡in ¡a ¡prokaryote ¡is ¡held ¡within ¡a ¡DNA/ protein ¡complex ¡in ¡the ¡cytosol ¡called ¡the ¡nucleoid. ¡

  • Eukaryotes ¡ ¡

– have ¡nucleus ¡(animal, ¡plants, ¡fungi) ¡ – Linear ¡genomes ¡with ¡mul@ple ¡chromosomes ¡in ¡pairs ¡

Prokaryotes ¡and ¡Eukaryotes, ¡con@nued ¡

slide-18
SLIDE 18

Chromosome ¡for ¡E.Coli ¡ ¡ (Prokaryote) ¡ Chromosomes ¡for ¡Human ¡ ¡ (Eukaryote) ¡

slide-19
SLIDE 19

Eukaryote ¡(Animal) ¡Cell ¡

slide-20
SLIDE 20

Prokaryotes ¡and ¡Eukaryotes, ¡con@nued ¡

Prokaryotes Eukaryotes Single cell Single or multi cell No nucleus Nucleus No organelles Organelles One piece of circular DNA Chromosomes No mRNA post transcriptional modification Exons/Introns splicing

slide-21
SLIDE 21

Gene@c ¡Material ¡for ¡Life ¡

slide-22
SLIDE 22

DNA: ¡The ¡Code ¡of ¡Life ¡

  • The ¡structure ¡and ¡the ¡four ¡genomic ¡legers ¡code ¡for ¡

all ¡living ¡organisms ¡ ¡

  • Adenine, ¡Guanine, ¡Thymine, ¡and ¡Cytosine ¡which ¡pair ¡

A-­‑T ¡and ¡C-­‑G ¡on ¡complimentary ¡strands. ¡

slide-23
SLIDE 23

DNA, ¡con@nued ¡

  • DNA ¡has ¡a ¡double ¡helix ¡

structure ¡which ¡ composed ¡of ¡ ¡ ¡

– sugar ¡molecule ¡ – phosphate ¡group ¡ – and ¡a ¡base ¡(A,C,G,T) ¡

¡

  • DNA ¡always ¡reads ¡from ¡

5’ ¡end ¡to ¡3’ ¡end ¡for ¡ transcrip@on ¡replica@on ¡ ¡

5’ ¡ATTTAGGCC ¡3’ ¡ 3’ ¡TAAATCCGG ¡5’ ¡

slide-24
SLIDE 24

DNA ¡Replica@on ¡

  • DNA ¡can ¡replicate ¡by ¡

splikng, ¡and ¡rebuilding ¡ each ¡strand. ¡

  • Note ¡that ¡the ¡rebuilding ¡
  • f ¡each ¡strand ¡uses ¡

slightly ¡different ¡ mechanisms ¡due ¡to ¡the ¡ 5’ ¡3’ ¡asymmetry, ¡but ¡ each ¡daughter ¡strand ¡is ¡ an ¡exact ¡replica ¡of ¡the ¡

  • riginal ¡strand. ¡

¡

http://users.rcn.com/jkimball.ma.ultranet/BiologyPages/D/DNAReplication.html

slide-25
SLIDE 25

Genotype/Phenotype ¡

  • To ¡prevent ¡confusion ¡between ¡genes ¡(which ¡

are ¡inherited) ¡and ¡developmental ¡outcomes ¡ (which ¡are ¡not), ¡gene@cists ¡make ¡a ¡dis@nc@on ¡ between ¡the ¡genotype ¡and ¡the ¡phenotype ¡of ¡ an ¡organism ¡

– Genotype: ¡complete ¡set ¡of ¡genes ¡inherited ¡by ¡an ¡ individual ¡ ¡ – Phenotype: ¡all ¡aspects ¡of ¡the ¡individual’s ¡ physiology, ¡behavior, ¡and ¡ecological ¡rela@onships ¡

slide-26
SLIDE 26

DNA ¡the ¡Gene@cs ¡Makeup ¡

  • Genes ¡are ¡inherited ¡and ¡are ¡

expressed ¡

– genotype ¡(gene@c ¡makeup) ¡ – phenotype ¡(physical ¡ expression) ¡

  • On ¡the ¡lef, ¡is ¡the ¡eye’s ¡

phenotypes ¡of ¡green ¡and ¡black ¡ eye ¡genes. ¡

slide-27
SLIDE 27
  • Two ¡organisms ¡whose ¡genes ¡differ ¡at ¡one ¡

locus ¡are ¡said ¡to ¡have ¡different ¡genotypes. ¡

  • A ¡locus ¡(loci ¡for ¡plural) ¡is ¡the ¡specific ¡loca@on ¡
  • f ¡a ¡gene ¡of ¡a ¡DNA ¡sequence ¡on ¡a ¡
  • chromosome. ¡
  • A ¡variant ¡of ¡the ¡DNA ¡sequence ¡at ¡a ¡given ¡

loca@on ¡is ¡called ¡a ¡allele. ¡

  • The ¡ordered ¡list ¡of ¡loci ¡known ¡for ¡a ¡par@cular ¡

genome ¡is ¡called ¡a ¡gene4c ¡map. ¡ ¡

slide-28
SLIDE 28

Diploid ¡and ¡polyploid ¡cells ¡whose ¡chromosomes ¡have ¡the ¡same ¡ allele ¡of ¡a ¡given ¡gene ¡at ¡some ¡locus ¡are ¡called ¡homozygous, ¡with ¡ respect ¡to ¡that ¡gene ¡(otherwise, ¡it ¡is ¡heterzygous). ¡ The ¡chromosomal ¡locus ¡of ¡a ¡ gene ¡might ¡be ¡wrigen ¡"6p21.3” ¡

  • 6: ¡chromosome ¡number ¡
  • p: ¡posi@on ¡on ¡the ¡

chromosome’s ¡short ¡arm ¡ (“p”) ¡or ¡long ¡arm ¡(“q”) ¡

  • 21.3: ¡the ¡posi@on ¡on ¡the ¡

arm: ¡region ¡2, ¡band ¡1, ¡sub-­‑ band ¡3. ¡The ¡bands ¡are ¡visible ¡ under ¡a ¡microscope ¡when ¡ the ¡chromosome ¡is ¡stained. ¡

¡

slide-29
SLIDE 29
slide-30
SLIDE 30

Genotype/Phenotype ¡

Phenotype: ¡ ¡ Blue ¡eyes ¡ Brown ¡eyes ¡ Genotype: ¡ ¡ Recessive: ¡bb ¡ Dominant: ¡Bb ¡or ¡BB ¡

slide-31
SLIDE 31
  • Pleiotropy: ¡when ¡one ¡gene ¡affects ¡many ¡

different ¡traits. ¡

  • Polygenic ¡traits: ¡when ¡one ¡trait ¡is ¡governed ¡by ¡

mul@ple ¡genes, ¡which ¡maybe ¡on ¡the ¡same ¡ chromosome ¡or ¡on ¡different ¡chromosomes. ¡ ¡

– The ¡addi@ve ¡effects ¡of ¡numerous ¡genes ¡on ¡a ¡single ¡ phenotype ¡create ¡a ¡con@nuum ¡of ¡possible ¡

  • utcomes. ¡ ¡

– Polygenic ¡traits ¡are ¡also ¡most ¡suscep@ble ¡to ¡ environmental ¡influences. ¡ ¡

slide-32
SLIDE 32

Pleiotropy ¡in ¡humans: ¡Phenylketonuria ¡(PKU): ¡

A ¡disorder ¡that ¡is ¡caused ¡by ¡a ¡deficiency ¡of ¡the ¡enzyme ¡ phenylalanine ¡hydroxylase, ¡which ¡is ¡necessary ¡to ¡convert ¡the ¡ essen@al ¡amino ¡acid ¡phenylalanine ¡to ¡tyrosine. ¡ ¡ A ¡defect ¡in ¡the ¡single ¡gene ¡ that ¡codes ¡for ¡this ¡enzyme ¡ therefore ¡results ¡in ¡the ¡ mul@ple ¡phenotypes ¡ associated ¡with ¡PKU, ¡ including ¡mental ¡retarda@on, ¡ eczema, ¡and ¡pigment ¡defects ¡ that ¡make ¡affected ¡ individuals ¡lighter ¡skinned ¡ ¡

slide-33
SLIDE 33

Polygenic ¡inheritance ¡in ¡humans: ¡Countless ¡traits ¡

  • Height ¡is ¡controlled ¡by ¡polygenes ¡for ¡skeleton ¡height, ¡but ¡their ¡

effect ¡may ¡be ¡affected ¡by ¡malnutri@on, ¡injury, ¡and ¡disease. ¡

  • Weight, ¡skin ¡color, ¡and ¡intelligence. ¡
  • Birth ¡defects ¡like ¡clubfoot, ¡clef ¡palate, ¡or ¡neural ¡tube ¡defects ¡

are ¡also ¡the ¡result ¡of ¡mul@ple ¡gene ¡interac@ons. ¡

  • Complex ¡diseases ¡and ¡traits ¡have ¡a ¡tendency ¡to ¡have ¡low ¡

heritability ¡(tendency ¡to ¡be ¡inherited) ¡compared ¡to ¡single ¡gene ¡ disorders ¡(i.e. ¡sickle-­‑cell ¡anemia, ¡cys@c ¡fibrosis, ¡PKU, ¡ Hemophelia, ¡many ¡extremely ¡rare ¡gene@c ¡disorders). ¡

¡

slide-34
SLIDE 34

Selec@on ¡

  • Some ¡genes ¡may ¡be ¡subject ¡to ¡selec4on, ¡where ¡

individuals ¡with ¡advantages ¡or ¡“adap@ve” ¡traits ¡ tend ¡to ¡be ¡more ¡successful ¡than ¡their ¡peers ¡ reproduc@vely ¡

  • When ¡these ¡traits ¡have ¡a ¡gene@c ¡basis, ¡selec@on ¡

can ¡increase ¡the ¡prevalence ¡of ¡those ¡traits, ¡ because ¡the ¡offspring ¡will ¡inherit ¡those ¡traits. ¡ This ¡may ¡correlate ¡with ¡the ¡organism's ¡ability ¡to ¡ survive ¡in ¡its ¡environment. ¡

  • Several ¡different ¡genotypes ¡(and ¡possibly ¡

phenotypes) ¡may ¡then ¡coexist ¡in ¡a ¡popula@on. ¡In ¡ this ¡case, ¡their ¡gene@c ¡differences ¡are ¡called ¡

  • polymorphisms. ¡
slide-35
SLIDE 35

Gene@c ¡Muta@on ¡

  • The ¡simplest ¡is ¡the ¡point ¡muta@on ¡or ¡subs@tu@on; ¡here, ¡a ¡single ¡

nucleo@de ¡in ¡the ¡genome ¡is ¡changed ¡(single ¡nucleo4de ¡ polymorphisms ¡(SNPs)) ¡

  • Other ¡types ¡of ¡muta@ons ¡include ¡the ¡following: ¡

– Inser4on. ¡A ¡piece ¡of ¡DNA ¡is ¡inserted ¡into ¡the ¡genome ¡at ¡a ¡ certain ¡posi@on ¡ – Dele4on. ¡A ¡piece ¡of ¡DNA ¡is ¡cut ¡from ¡the ¡genome ¡at ¡a ¡certain ¡ posi@on ¡ – Inversion. ¡A ¡piece ¡of ¡DNA ¡is ¡cut, ¡flipped ¡around ¡and ¡then ¡re-­‑ inserted, ¡thereby ¡conver@ng ¡it ¡into ¡its ¡complement ¡ – Transloca4on. ¡A ¡piece ¡of ¡DNA ¡is ¡moved ¡to ¡a ¡different ¡posi@on. ¡ – Duplica4on. ¡A ¡copy ¡of ¡a ¡piece ¡of ¡DNA ¡is ¡inserted ¡into ¡the ¡ genome ¡

slide-36
SLIDE 36

Muta@ons ¡and ¡Selec@on ¡

  • While ¡muta@ons ¡can ¡be ¡detrimental ¡to ¡the ¡

affected ¡individual, ¡they ¡can ¡also ¡in ¡rare ¡cases ¡be ¡ beneficial; ¡more ¡frequently, ¡neutral. ¡

  • Ofen ¡muta@ons ¡have ¡no ¡or ¡a ¡negligible ¡impact ¡
  • n ¡survival ¡and ¡reproduc@on. ¡
  • Thereby ¡muta@ons ¡can ¡increase ¡the ¡gene4c ¡

diversity ¡of ¡a ¡popula@on, ¡that ¡is, ¡the ¡number ¡of ¡ present ¡polymorphisms. ¡ ¡

  • In ¡combina@on ¡with ¡selec@on, ¡this ¡allow ¡a ¡

species ¡to ¡adapt ¡to ¡changing ¡environmental ¡ condi@ons ¡and ¡to ¡survive ¡in ¡the ¡long ¡term. ¡

slide-37
SLIDE 37

Raw ¡Sequence ¡Data ¡

  • 4 ¡bases: ¡A, ¡C, ¡G, ¡T ¡+ ¡other ¡(i.e. ¡N ¡= ¡any, ¡R ¡= ¡G ¡or ¡A ¡

(purine), ¡Y ¡= ¡T ¡or ¡(pyrimidine)) ¡

– kb ¡(= ¡kbp) ¡= ¡kilo ¡base ¡pairs ¡= ¡1,000 ¡bp ¡ – Mb ¡= ¡mega ¡base ¡pairs ¡= ¡1,000,000 ¡bp ¡ ¡ – Gb ¡= ¡giga ¡base ¡pairs ¡= ¡1,000,000,000 ¡bp. ¡

  • Size:

¡ ¡ – E. ¡Coli ¡4.6Mbp ¡(4,600,000) ¡ – Fish ¡130 ¡Gbp ¡(130,000,000,000) ¡ – Paris ¡japonica ¡(Plant) ¡150 ¡Gbp ¡ – Human ¡3.2Gbp ¡ ¡

slide-38
SLIDE 38

Fasta ¡File ¡

  • A ¡sequence ¡in ¡FASTA ¡format ¡begins ¡with ¡a ¡single-­‑line ¡

descrip@on, ¡followed ¡by ¡lines ¡of ¡sequence ¡data ¡(file ¡extension ¡ is ¡.fa). ¡ ¡

  • It ¡is ¡recommended ¡that ¡all ¡lines ¡of ¡text ¡be ¡shorter ¡than ¡80 ¡

characters ¡in ¡length. ¡

slide-39
SLIDE 39

Fastq ¡File ¡

  • Typically ¡contain ¡4 ¡lines: ¡

– Line ¡1 ¡begins ¡with ¡a ¡'@' ¡character ¡and ¡is ¡followed ¡by ¡a ¡sequence ¡ iden@fier ¡and ¡an ¡op#onal ¡descrip@on. ¡ – Line ¡2 ¡is ¡the ¡sequence. ¡ – Line ¡3 ¡is ¡the ¡delimiter ¡‘+’, ¡with ¡an ¡op@onal ¡descrip@on. ¡ – Line ¡4 ¡is ¡the ¡quality ¡score. ¡ – file ¡extension ¡is ¡.fq ¡

@SEQ_ID GATTTGGGGTTCAAAGCTTCAAAGCTTCAAAGC + !''*((((***+))%%%++++++++!!!++***

slide-40
SLIDE 40

Proteins: ¡Primary ¡Structure ¡

  • Pep@de ¡sequence: ¡

– Sequence ¡of ¡amino ¡acids ¡= ¡sequences ¡from ¡a ¡20 ¡ leger ¡alphabet ¡(i.e. ¡ACDEFGHIKLMNPQRSTVWY) – Average ¡protein ¡has ¡~300 ¡amino ¡acids ¡ – Typically ¡stored ¡as ¡fasta ¡files ¡

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

slide-41
SLIDE 41

Proteins: ¡Secondary ¡Structure ¡

  • Polypep@de ¡chains ¡fold ¡into ¡regular ¡local ¡

structures ¡

– Common ¡types: ¡alpha ¡helix, ¡beta ¡sheet, ¡turn, ¡loop ¡ – Defined ¡by ¡the ¡crea@on ¡of ¡hydrogen ¡bonds ¡

slide-42
SLIDE 42

Proteins: ¡Ter@ary ¡Structure ¡

  • 3D ¡structure ¡of ¡a ¡polypep@de ¡sequence ¡

– interac@ons ¡between ¡non-­‑local ¡and ¡ ¡ foreign ¡atoms ¡

slide-43
SLIDE 43

Proteins: ¡Quaternary ¡Structure ¡

  • Arrangement ¡of ¡protein ¡subunits ¡
slide-44
SLIDE 44

Genes ¡and ¡Proteins ¡

  • One ¡gene ¡encodes ¡one ¡protein ¡and ¡begins ¡with ¡

start ¡codon ¡(e.g. ¡ATG), ¡then ¡each ¡three ¡code ¡one ¡ amino ¡acid. ¡Then ¡a ¡stop ¡codon ¡(e.g. ¡TGA) ¡signifies ¡ end ¡of ¡the ¡gene. ¡

  • In ¡the ¡middle ¡of ¡a ¡(eukaryo@c) ¡gene, ¡there ¡are ¡

segments ¡that ¡are ¡spliced ¡out ¡during ¡ transcrip@on. ¡ ¡

– Introns: ¡segments ¡that ¡are ¡spliced ¡out ¡ ¡ – Exons: ¡segments ¡that ¡are ¡kept. ¡

  • Detec@ng ¡the ¡introns ¡and ¡exons ¡is ¡a ¡task ¡for ¡gene ¡
  • finding. ¡
slide-45
SLIDE 45
slide-46
SLIDE 46

Conclusions ¡

slide-47
SLIDE 47

Challenges ¡in ¡Bioinforma@cs ¡

  • Need ¡to ¡feel ¡comfortable ¡in ¡

interdisciplinary ¡area ¡

  • Depend ¡on ¡others ¡for ¡primary ¡data ¡
  • Need ¡to ¡address ¡important ¡biological ¡and ¡

computer ¡science ¡problems ¡

slide-48
SLIDE 48

Basic ¡Steps ¡in ¡Bioinforma@cs ¡Research ¡

  • 1. Data ¡management ¡problem: ¡storage, ¡transfer, ¡

transforma@on ¡(Informa@on ¡Technology) ¡

  • 2. Data ¡analysis ¡problem: ¡mapping, ¡assembly ¡

– algorithm ¡scaling ¡(Computer ¡Science) ¡

  • 3. Sta@s@cal ¡challenges: ¡tradi@onal ¡sta@s@cs ¡is ¡not ¡

well ¡suited ¡for ¡modeling ¡systema@c ¡errors ¡over ¡ large ¡number ¡of ¡observa@ons ¡(Biosta@s@cs) ¡

  • 4. Biological ¡hypothesis ¡tes@ng ¡

– data ¡interpreta@on ¡(Life ¡Science) ¡

slide-49
SLIDE 49

Basic ¡Skills ¡ ¡

  • Ar@ficial ¡intelligence ¡and ¡machine ¡learning ¡
  • Sta@s@cs ¡and ¡probability ¡
  • Algorithms ¡
  • Databases ¡
  • Programming ¡
  • Biology/Chemistry ¡knowledge ¡
slide-50
SLIDE 50

Genomics: ¡

  • ­‑

Assembly ¡ ¡

  • ­‑

Detec@on ¡of ¡varia@on ¡

  • ­‑

GWAS ¡ RNA: ¡

  • ­‑

Gene ¡expression ¡

  • ­‑

Transcriptome ¡assembly ¡ ¡

  • ­‑

Pathway ¡analysis ¡ Protein: ¡

  • ­‑

Mass ¡spectrometry ¡

  • ­‑

Structure ¡predic@on ¡ ¡

  • ­‑

Protein-­‑Protein ¡ interac@on ¡ ¡