高中生命科學研究人才培育計畫 機器學習於巨量生醫資料分析之應用 陳倩瑜 國立台灣大學生物產業機電工程學系
什麼是 機器學習? Machine learning 2
巨量生醫資料從何而來? Big Bio Data
機器學習 是人工智慧的一支 這是一門設計與開發演算法的學科讓電腦可以根據經驗演化它的行為 所謂的經驗來自於感測資料或資料庫 原文 :Machine learning, a branch of artificial intelligence, is a scientific discipline concerned with the design and development of algorithms that allow computers to evolve behaviors based on empirical data, such as from sensor data or databases. http://en.wikipedia.org/wiki/machine_learning 4
機器學習演算法範例 監督式 supervised 非監督式 unsupervised Classification ( 分類 ) Decision trees ( 決策樹 ) Clustering ( 分群 ) K-means (K 平均演算法 ) 5
Class 男 女 Rule 喜歡運動 => 男 20 (ok) 9 不喜歡運動 14 9 (ok) Classification ( 分類 ) 1. 建立分類規則 2. 評估準確度 ( 訓練資料 ) 3. 進行預測 ( 測試資料 )
Clustering ( 分群 ) 1. 將相似的物件放在一起 2. 盡可能讓每一群都不像
監督式學習的概念 8
機器學習的基本核心 相似度 9
監督式學習 每個待測物件都由一組特徵值來描述 : 形狀 顏色 氣味 重量 體積 用來當訓練資料的物件則由專家分別標上標籤 : 蘋果 香蕉 奇異果 10
監督式學習用在哪裡? 人臉辨識 臉型辨識 身份辨識 笑臉辨識 11
監督式學習還用在哪裡? 垃圾郵件 郵件自動分類 防毒軟體 病毒碼更新的重要性 手寫辨識 語音辨識 12
監督式學習於癌症診斷之應用 存活率高 存活率低 年齡 腫瘤大小 13
監督式學習於癌症診斷之應用 基因 B ( 蛋白質 B) 存活率高存活率低新病人線性分類器非線性分類器 基因 A ( 蛋白質 A) 14
非監督式學習 把有看起來很像的東西放在一起 http://en.wikipedia.org/wiki/lentil 15
分群 階層式分群 演化樹 Genome sequence, comparative analysis and haplotype structure of the domestic dog, Nature 438, 803-819, 2005. 16
台灣鼬獾狂犬病毒從中國鼬獾來? 奇獸飼育學 http://magical-creatures.blogspot.com/ http://magical-creatures.blogspot.tw/2013/08/blog-post_6.html 台大王弘毅老師分析資料 17
分群演算法的應用 每天收錄來自全世界 4,500 個新聞來源 新聞自動分門別類 18
機器學習的關鍵要素 大量的資料 從早期專家系統的知識驅動 (knowledge-driven) 演進為資料驅動 (data-driven) 19
安潔莉娜 裘莉 因她的母親 56 歲就罹患卵巢癌死亡, 本身是癌症高風險群, 為了釐清自己的罹癌風險, 而接受了基因檢測 結果顯示, 她的 DNA 帶有家族遺傳性乳癌 / 卵巢癌的 BRCA 基因突變, 將使乳癌和卵巢癌的罹患風險高達 87% 和 50% 2013 年 4 月 27 日為預防患乳腺癌和卵巢癌而切除乳腺 預防性醫學 20
低廉的 DNA 定序價格 與 預防性醫學的關聯性
人類的基因體 (Genome) 有多大? 3 千萬個核苷酸 (3 10 7 = 30 M) 3 億個核苷酸 (3 10 8 = 300 M) 30 億個核苷酸 (3 10 9 = 3 G) 300 億個核苷酸 (3 10 10 = 30 G) 答案 :30 億個核苷酸 (3 10 9 = 3 G) 22
人類大約有多少基因? 10,000 ~ 15,000 個基因 20,000 ~ 30,000 個基因 40,000 ~ 50,000 個基因 80,000 以上 答案 :25,000 個基因 23
這麼大的基因體中, 基因的所在位 1%~2% 3%~5% 約 10% 約 30% 置佔了多少比例? 答案 :1%~2% 如果用 1% 來計算大約是 3 千萬個核苷酸 (3 10 7 = 30 M) 24
過去 14 年間,DNA 的定序價格的變化 http://www.genome.gov/sequencingcosts/ 25
決定你的基因體需要多少錢? 人類的基因體有 30 億個核苷酸 (3 10 9 = 3 G) 全基因體定序 :3 G = 3000 M = 300 美元? 基因所在的位置大約有 3 千萬個核苷酸 (3 10 7 = 30 M) 只決定含有基因的位置 :3 美元? 抱歉, 沒這麼便宜 26
當前 DNA 定序技術的侷限 ACGAGTCGACGATATACGTATGCAGTAGACGACATAAATGTAACGTGACAGTG 一次只能看幾個字母 可能會讀錯 定序深度 GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAACTGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAAAAGTAACGTGACAGTG GACGACATAAATGTAACGTGACAGTG GACGACATAGATGTAACGTGACAGTG 27
決定你的基因體需要多少錢? 人類的基因體有 30 億個核苷酸 (3 10 9 = 3 G) 全基因體定序 定序深度 = 1 => 300 美元 定序深度 = 33 => 9,900 美元 基因所在的位置大約有 3 千萬個核苷酸 (3 10 7 = 30 M) 只決定含有基因的位置 定序深度 = 1 => 3 美元 定序深度 = 33 => 99 美元 28
https://www.23andme.com/ 馬上讓你知道你的 25,000 個基因是否正常 基因可能決定你的體質 基因可能決定你是否對特定食物過敏 基因可能決定你被肝炎病毒感染後, 是否能自行復原? 基因可能決定你是否為乳癌高危險群 基因可能決定你服用某種藥物後的反應 29
你是否會選擇利用這麼便宜的 DNA 定序更加了解自己的身體? 試圖避免嚴重的健康問題的發生 預防性醫學時代的來臨
更全面地探討基因與疾病的關聯性 31
精準醫學 (Precision Medicine) 美國總統歐巴馬於 2015 年 1 月 20 日在國情咨文演講中提出 : 精準醫學計畫 (Precision Medicine Initiative), 希望美國能 引領一個醫學新時代, 透過推動利用個人化基因資訊的疾病治療, 在人類歷史上再次締造突破醫學發展的地位 執行方向 : 將要募集 100 萬人的基因資料, 透過研究不同族群 各個年齡層的個人化基因資訊, 來協助治療癌症與糖尿病等疾病 http://www.berich.com.tw/ag/cnyes2/talktalk/talk_detail.asp?ii=123074 32
http://pansci.tw/archives/71878 33
從模式生物 到所有生物 34
Bactrocera dorsalis ( 東方果實蠅 ) 台大昆蟲系 Plutella xylostella ( 小菜蛾 ) 台大昆蟲系 Bactrocera cucurbitae ( 瓜實蠅 ) 夏威夷大學 Ambystoma mexicanum ( 蠑螈 ) 台大生技所 Drosophila melanogaster ( 果蠅 ) 台大分子醫學研究所 Aquilaria agallocha Cleome spinosa ( 白花菜 ) 中研院生物多樣化中心 ( 沉香 ) Mung bean ( 綠豆 ) 中研院植微所 Mus musculus ( 小鼠 ) 台大醫學院心臟科 Ongoing projects 35
有了這麼多序列之後 能回答什麼問題呢?
機器學習的基本核心 相似度
演化樹 81% 的人類基因能在狗的基因組中找到 79% 老鼠 67% 雞 63% 斑馬魚 39% 果蠅 30% 線蟲 15% 水稻 11% 酵母菌 38
監督式學習 老鼠 MGLSDGEWQL VLNVWGKVEA DLAGHGQEVL IGLFKTHPET LDKFDKFKNL KSEEDMKGSE DLKKHGCTVL TALGTILKKK GQHAAEIQPL AQSHATKHKI PVKYLEFISE IIIEVLKKRH SGDFGADAQG AMSKALELFR NDIAAKYKEL GFQG 相似度 84% MGLSDGEWQL VLNVWGKVEA DIPGHGQEVL IRLFKGHPET LEKFDKFKHL KSEDEMKASE DLKKHGATVL TALGGILKKK GHHEAEIKPL AQSHATKHKI PVKYLEFISE CIIQVLQSKH PGDFGADAQG AMNKALELFR KDMASNYKEL GFQG 人類的肌紅蛋白 39
非監督式學習 mdcpvcegmgvkgeaetvvchacngegrrvsgifnfprpcsvckgkgfivknpcptcygrgrv vfcdscdglghpsdaamsicptcrgvgrvtippftascqtckgtghiikeycmscrgsgiv ipcgacggsgeevlrhtrlcatchgsgrvrdgrsltacadcagrgylsrqacgachgsgqa ilcdrcegtgskskskpnvcstcngsgeiqqmqrsflgnvmtsspcptcrgtgevipdpcdkcggdgrv vlcskchgsgsasnakpktcgtchgsgeiqevqrsflgnvmtsrpchtcngtgevipdpcdecagdgrv vlctkchgsgsasdkkpvtcgtcngageiqevqrsflgnvmtsrpchtcdgtgeiipdpctecagdgrv apctnchgsgarpgtspkvcptcngsgvinrnqgafgfsepctdcrgsgsiiehpceeckgtgvt apctnchgsgarpgispkvcstcngsgvinrnqgafgfsepctecrgsgsiiehpceeckgtgvt vlcdrchgkgtngdsapvpcdtcggrgevqtvqrsllgqvmtsrpcptcrgvgvvipdpchqcmgdgrv apctnchgsgarpgtspkvcptcngsgvinrnqgafgfsepctdcrgsgsiiehpceeckgtgvt vlcdachgsgthgnskpvrcetcggagevqsvqrsflgqvltsrpcptcrgagetipdpchkcggdgrv vvcpkcqgkgaqsgsepvtcdtcqgrgevitvqrsflgdirtsqpcptchgygtvipdpcqecsgegrv apckacsgtgdangtprvcptcvgtgqvargsgggfsltdpcpdckgrgliaenpceickgsgra Protein ID DNAJ1_AQUAE DNAJ1_ARATH DNAJ1_AZOSE DNAJ1_CORDI DNAJ1_COREF DNAJ1_CORGL DNAJ1_MYCBO DNAJ1_MYCLE DNAJ1_MYCPA DNAJ1_MYCTU DNAJ1_NOCFA DNAJ1_PROAC DNAJ1_STRAW 40
成為跨領域研究人才 Open minded
c4lab road map Informatics Engineering Computer Science Molecular Biology IE CS MB Basic programming (e.g. C/C++, JAVA, Python, Perl) Web programming (e.g. HTML, CSS, PHP, MySQL) Data structures Algorithms Machine learning (e.g. clustering, classification) Data Mining (statistics required) DNA, RNA, proteins Molecular interactions (e.g. protein-dna binding) Gene regulation (e.g. TF or histone binding) Systems Biology SB Statistics (association) Regulatory networks (modeling) Responses to stimulus (e.g. diseases, resistance) Big Data Analysis BD NGS (e.g. DNA-seq, RNA-seq, ChIP-seq) Microarray (e.g. gene expression, ChIP-chip) Databases (e.g. sequence/structure) Bioinformatics BI Sequence alignment (e.g. BLAST, clustalw) Structure prediction (e.g. Rosetta, I-TASSER) Function annotation (predicting interactions)
高中生命科學研究人才培育計畫 我與我設計的演算法一起學習生物 Thank you!