陈钢 数据驱动的生命科学 北京大学生命科学学院

【静.沙龙】推出【主题分享】,每周三晚9:00-10:30,围绕大数据、人工智能、前沿科技与人文等主题进行微信群的在线交流、探讨。

【静.沙龙主题分享】第9期 数据驱动的生命科学

主讲嘉宾: 陈钢

主持人: 中国经济网经营顾问 杨静

嘉宾介绍:

【陈钢】华大基因下属华大科技VP。华大基因研究员,香港中文大学兼职助理教授。2012年毕业于中南大学计算机系,之后一直在深圳华大基因工作,主要从事生物数据分析和相关技术平台搭建,以及复杂疾病和肿瘤的高通量实验数据分析与可视化方面的工作。已发表生物信息领域的论文十余篇,翻译出版《R语言实战》、《统计思维》等书籍9本。长期从事数据分析与可视化、R语言、数据挖掘等方面的培训和咨询工作,有丰富的经验。

【9月10日主题分享精彩回放】

小 米 粒,大 数 据

【陈钢】大家好,今晚我抛砖引玉跟大家探讨一下生命科学领域的数据。随着高通量生物技术的发展,生命科学正在由一门实验学科变成数据驱动的理论科学。今天正好是国际基因组大会第一天,我的老板,华大基因的董事长就这方面做了一个很有感染力的演讲。请大家参考这篇文章:2014国际BT领袖峰会开幕,汪建董事长畅谈《大数据和大科学》。

【杨静lillian】汪建先生在演讲中提到:在参加这次 BT 领袖峰会之前的两天,他在西雅图和比尔·盖茨谈了 5次,希望建一个大型的跟生命健康相关的数据中心,为全球重大疾病研究的科学家提供基本的组学水平上的基础数据,建立一套高效率的人工智能分析体系。他也相信这套系统的建立一定会对疾病的预测预防带来革命性的变化,对未来精准的诊断治疗带来革命性的变化,为药物的研发带来革命性的变化。王俊院长则深入分析了BT和IT的融合关系,他认为,IT会向BT发展,某种意义上来讲人类对自己的认知有多少,IT对未来的潜能就有多少,而BT也在往IT发展,因为整个生命个体的过程和信息化过程以及在这个基础上规律性的挖掘和掌握也许就是真正的生物科技和生物产业的未来。

华大基因创始人汪建

【名词解释】高通量测序技术(High-throughputsequencing)又称“下一代”测序技术("Next-generation"sequencingtechnology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。

【陈钢】不仅仅是电子商务,政务,社交,安全等在被大数据改变,生命科学在这个时代的变革也很深刻。比如小米的改良。

小米是中华民族的传统粮食,但因为产量问题,在近代被外来物种水稻所代替。但其实小米才是最适合中国人的主粮。雷军的小米公司每次搬办公室都会喝小米粥。华大基因几年前开始尝试改良小米,加强适应性和提升产量。今年河南大旱,但我们田里的小米长势不错。小米本身就节水。华大基因现在还谈不上挑战孟山都,整体实力,商业规模都还有很大差距。

【思彤】小米究竟算粗粮还是细粮?

【常疆】另外,准确一点说小米是黄河流域的人群主食。

【陈钢】分子生物学角度没粗粮细粮的概念。说小米是中国人的传统主粮是一个历史问题。

【杨静lillian】可以考虑出一种“中国米”,融合大米和“小米”。。。简称中米。。。

【陈钢】我们要去发展小米,因为小米天然就节水,营养成分也很不错。传统的做法是以袁隆平院士为代表的杂交水稻,但需要很长的时间才能得到新品种,这也是为什么袁院士去海南做杂交水稻的实验,一年可以做三次。但现在不是这么做了。现在是先对大量,比如几百甚至上千株目标性状的小米做基因组测序,以便了解目标性状跟基因组上位点的关系。

比如,我们希望得到非常抗旱的小米。那就对一定数量非常抗旱的小米和一定数量的普通小米做基因组测序,然后通过比较得到跟抗旱有关的基因组位点。

换言之,就是能知道什么样的基因组会是抗旱的。知道这个信息后有两个选择,一是转基因,大众接受不了;第二,分子指导育种。

华大选择第二个方式。

简单来说就是我们依然采取跟袁隆平院士类似的天然杂交手段,得到杂交的后代。但我们不需要等到小米长大,长出类似胚芽之类的东西我们就可以对杂交后代进行测序,从而判断它是否具有我们所需的性状。这样,实验进程大大加快,每年可以完成几十次甚至更多的实验。可以很快地得到新品种。但其中关键就在于如何找到目标性状相关的基因或者位点。

现在这个数据量还不是特别大,但因为获取数据的成本远比电子商务和社交网络高,所以需要在样本量较小的情况下,得到基因和性状的关系,数据分析是个很麻烦的事情。

【杨福川】有没有考虑到一个问题:天然的小米是经过长时间进化而来的,而且已经通过几千年的实践检验是适合人的生长需求的,如果人为改变小米的基因结构,会不会对人体造成伤害?类似于转基因的问题如何解决?

【陈钢】我们现在吃的几乎所有农作物都是杂交的。我个人并不担心转基因,但因为华大的产品和技术需要面向社会大众,所以我们没有采用转基因的技术方案。但不管是转基因还是分子指导的杂交育种,前提都是大规模基因组数据的分析。这样的分析在人的复杂疾病、肿瘤的研究、筛查、预防和治疗上也是类似的。比如二型糖尿病的研究,也是类似的,只是更复杂,数据量更大。

【陈绪】我支持非转基因。

【杨静lillian】这个做法,确实符合中国人的特点,照顾了中国文化。

【秦继荣】小米+步枪起家,陕北小米营养好,可以分析一下!

【韩曦晨】小米可以做主食:在东北,它和大米放一起焖,做出来的主食叫二米饭。在山西,煮一锅小米,熟了后拿勺子凿结实了吃,叫稠粥。

【常疆】小米粒儿,大数据。

【陈钢】华大的小米并没有采用转基因的技术,都是通过一般的杂交获得的。我们的小米试验田在全国各地都有,在南方也有。各地环境不同,都需要不同的品种。所以,小米的育种是个长期项目。前面说的数据分析也不是一次性的,长期要做。而且随着简单的问题被解决,数据量和分析难度都会持续增加。

这一季的小米应该要上市了。到时杨老师做个活动,给群里的朋友们送一些吧。上次去阿里就送了一些过去。

【杨静lillian】那么目前小米的数据是怎么进行处理和分析的呢?或者说大数据对小米育种有何神奇作用?

【陈钢】没有几千株甚至更大规模的小米的基因组测序数据,上述品种的开发和培育几乎是不可能的。现在小米的数据量还不是特别大,跟人的数据相比,数据管理和分析上的IT技术要求还不是特别高,统计模型方面的难度更大些。小米的数据分析的IT方面的难度不高。就作用而言,没有数据分析,就不可能有这些新的品种。

人的数据,不管是基因组还是宏基因组,还有蛋白质组和代谢组的数据分析在IT技术方面都比小米的要复杂。

【杨静lillian】但这能称为大数据么?是以统计建模为主吧?

【陈钢】呵呵,我的分享标题就没说是“大数据”。但我们之前的一个宏基因组项目中的特殊聚类分析,需要在天河一号上驱动几百台计算节点的GPU,运行一周。而且因为节点总会有不稳定的情况,实际运行时间要更长。

另一方面,俺不觉得数据量大就是大数据,数据量相对小就不是大数据。培育小米新品种的关键一步就是要知道基因跟性状之间的关系。没有足够的数据,不可能做到

【王涛-爱奇艺】食用转基因对人体有没有害?

【陈钢】基因的知识(奥秘)很多,请访问http://www.knowgene.com

【王涛-爱奇艺】转基因和杂交是一回事么?

【陈钢】不同的人有不同的解读,我觉得没啥本质区别。我认为无害,至少没法证明有害。我们吃的农产品几乎都是杂交的,至少现在看上去没什么明显的害处。

【武卿】杂交的和转基因的反正我都吃。非转基因的是经上帝之手,转基因的是经人类之手~换只手而已。

基 因 测 序 的 数 据 驱 动

【陈钢】传统的基于基因组的复杂疾病研究是用人的基因组数据做Case/Control的对照研究,大型项目的样本数能有数千例。小范围测序的项目可以做到几万例。但这只能解决一小部分跟基因组有密切关系的疾病。

人的基因组是3G,基因组测序得到的数据量一般不少于100G,一个1000VS.1000的项目,测序数据量大概是200T。

但这依然解决不了很多常见的疾病,包括我刚才说的二型糖尿病。考虑到二型糖尿病跟饮食的关系,于是引入人体肠道菌群的宏基因组数据。数据量继续增长,而且由于宏基因组的复杂性,分析难度也增加了。

【陈钢】还真有一个肥胖相关的基因。详见这里:http://www.knowgene.com/article/139。脂肪量与肥胖相关(fatmassand obesity associated,FTO)基因是至今为止研究证实最强最确定的肥胖易感基因,在小鼠和人类的研究中均显示神经和心血管系统与身体质量指数、肥胖的风险、和2型糖尿病密切相关,可想而知FTO基因的表达与高脂高糖的生理指标是分不开的。FTO基因位于Chr16q12.2,全长417,979个碱基,从53,737,875bp起始,到54,155,853bp结束。

换言之,如果经过测序判断你的FTO基因是AA/AT型,你的胖就比较合理了。当然,决定肥胖的因素很多。基因组只是其中的部分因素,肠道菌群等都会影响。

【王涛-爱奇艺】如果一个人通过锻炼减肥成功。他的肥胖基因是否也相应能够发生变化呢?

【张云泉ICT】真的?我也测试下。

【陈钢】杨静老师做了采用生物芯片技术的基因检测,是北京的360基因公司提供的。我可以帮你做,我们给你一个唾液收集器,然后送过来就是了。

单个DNP位点的(测序)还是很简单的,硬成本100元以内,单个基因的。杨静老师做的那个比较高级,要几千元。

【白硕】掺杂了基因检测的杂交,就像掺杂了语义分析的检索。

【高博】我也不是很懂,那种查各种癌的发病率的好像也可以做吧?

【陈钢】癌症的科学研究还不够透彻,但风险相对整体人群的高低还是可以判断的。而且癌症的风险还跟免疫组等东西相关,想得到比较靠谱的结果就得一起做。

好像明天华大的医学部门会发布一个癌症风险的检测产品,还是比较贵,估计要一万元左右。癌症是最复杂的疾病了,现在看来。

一般复杂疾病研究时,一个人的测序数据量100G。肿瘤研究中单个人的基因组测序数据有时接近1T。

我们知道很少一部分的基因和性状的关系,但很多性状由很复杂的基因组状态所影响的,而且还受到环境因素的影响。

【陈钢】数据驱动的生命科学 北京大学生命科学学院

一对一的关系都解决了,所谓单基因病。而且,如果单个突变会导致不良性状的话,这样的个体在进化过程中会被淘汰的,很容易就被淘汰了。

多对一,或者多对多都是特别复杂的情况。因为这里说的都是点突变,就是基因组上某个位点从A变成T或者类似的。但基因组的变化不仅仅是这种简单的变化,还有插入,缺失,染色体片段缺失和扩增等,甚至还有染色体之间大段基因组的translocation(易位)。做数据分析的时候让人抓狂啊。

【常疆】基因影响应该比语义识别难很多吧。

【白硕】基因的折叠,和句法分析关系密切。

【高博】说不定A基因的表达实际上又取决于后面200个基因的状态呢……我还记得是两种嘌呤和两种嘧啶。

【陈钢】做IT腻味了,就来尝试生命科学吧。最近这个行业获得投资和涌现的创业公司都在明显地增加,阿里云的朋友也跳出来做云计算上的生物信息了。机器学习,高性能算法,高性能的有针对性的硬件基础设施,都异常重要。

【胡本(Ben)立】考虑突变,多长时间需去重测序列一次?

【陈钢】如果是说基因组的话,年轻的时候可以间隔十来年。基因组其实变化很小,大规模的变化就是癌症,所以反复检测基因组的意义就在于判断癌症风险。

现在有一种思路是这样的,在健康年轻的时候去采集包括基因组在内的各种人体数据,作为健康状态的基准数据。然后间隔一段时间做一些检测,即使是健康的,也可以判断你跟年轻时的状态在分子层面上有了多大的变化。

有些可以干预,比如杨静老师说的筛查。例如癌症筛查,安吉丽娜.朱莉那个是遗传性乳腺癌。如果是胎儿的筛查,在部分国家发现问题后可以选择流产,降低社会和家庭负担;如果是婴儿筛查,发现问题后可以尽早通过教育、药物的访问进行干预。像比较常见的遗传性耳聋,两广地区的地中海贫血症都是如此。

这方面的争议也很多,我们的科研项目和临床服务都需要经过伦理委员会的审查。

上面所说的这些遗传性乳腺癌,胎儿和婴儿筛查,之所以现在能做,都是因为之前通过数据的积累,得到了确定的结果。比如,现在大城市常见的无创产前筛查。除去测序技术,这里面一个重要的事情就是积累健康孕妇的外周血测序数据。核心的计算就是把被测者的数据跟积累的数据算一个z-score。看看有多大差异,差异大了,就很有可能有问题。

【胡本(Ben)立】@杨静lillian 脑科学是一端,基因是另一端,你现在全cover了。

【陈钢】脑科学现在看上去比基因更麻烦。实验手段的成熟度都还有巨大差距,数据分析更是麻烦。

【胡本(Ben)立】他们认为你们更麻烦。。。

【杨静lillian】《奇点临近》的译者就把基因科学家比喻成狂人。。。

【陈钢】都很谦虚嘛。俺自认不是狂人,俺的目标是专心做码农:)

【杨静lillian】数据驱动的生命科学,除了小米和基因测序,未来有何展望?

【陈钢】未来的展望可以看看我一开始发的那个汪建老师的演讲介绍,全文应该很快会出来的。数据驱动的生命科学,接下来就是数据驱动的医学,数据驱动的健康管理,数据驱动的健康生活~~~其实在各个方面都已经看到了一些苗头。@黎浩会有一些重量级的部署:从硬到软,从生物信息到互联网产品开发。(注:黎浩是华大基因总裁助理,兼业务运营与发展中心主任,现负责华大基因的互联网和大数据方面的规划和业务。)

【黎浩】明天华大基因会宣布启动炎黄计划肿瘤篇,推动肿瘤基因组学的科研计划。未来希望更多人建立个人的健康基线和健康管理。

【杨静lillian】据说华大基因要转型为大数据公司,黎总,是否有此一说?

【黎浩】是的,基因大数据的运营公司。

【杨静lillian】KK说过,传统就是包袱。互联网公司还在执迷,华大基因已经要跨栏了!基因大数据的运营公司,还能向群友透露些具体规划么?

【黎浩】测序仪高通量产出数据,国家基因库存储资源,利用超算进行大数据计算,建模分析得出科学发现,建立交互平台与大家分享。

【陈钢】机器学习、人工智能方面华大基因要组建专门的团队;高性能计算会基于自己的计算资源,同时整合国家超算中心,把国家超算的计算资源也利用起来;云计算,显然是私有云和公有云的混合~~~

【杨静lillian】现在不是在利用么?以后还要更多利用吧?天河二号离你们近。但节点不稳定的问题怎么解决?

【陈钢】超算也在进步~~~商业云计算系统也有节点不稳定的时候,何况超算给的是物理节点。

【陈钢】我今天分享的总结:数据渗透到各行各业,也驱动着各行各业的发展,乃至变革。生命科学作为对人类有直接影响的领域,也被数据改变着。对于各种背景的人,这里面都蕴藏着巨大的机遇。不知何时会爆发,但至少现在已经在启动。

【静点评】华大基因15周年,已经走在数据驱动的生命科学路上。小米粒儿,大数据;基因测序,也有数据驱动。未来,华大基因还要向基因大数据的运营公司转型——他们可能会建设大型的健康相关的数字化中心,建立一套高效的人工智能分析体系。未来必将实现BT与IT的融合。这样的愿景让人无限憧憬,中国的生物技术产业会迎来新的飞跃。让我们期待华大基因的送小米活动,以及组织参观华大基因研究院,深入了解基因技术的研究进展。感谢今天众多群友的关注和参与,我们共同期待华大基因在生命科学和大数据领域再创辉煌!为中国人创造一个更美好的明天­:就像汪健所说,华大基因的中国梦就是让所有中国人不饿不傻不病不死。在此也恭祝华大基因15周年生日快乐,华大基因加油!

有关华大15周年的详细信息请见阅读原文的链接:华大基因筑未来。另外,有需要360基因测序的,请与@陈钢直接联系。

【陈钢】华大基因总部在深圳,分支机构遍布全球~~~美洲区的总部还是在美国,有销售人员在加拿大。当然,首推华大基因的产品和服务哈:)都可以跟我联系,以后我及时在群内跟大家分享这个行业最新的动态和产品。华大力推全行业的发展~~~

【黎浩】做个广告:华大需要更多人的参与,下一个十五年我们一起创造!华大基因的大数据战略还在规划中,所以期待更多人才加盟。

  

爱华网本文地址 » http://www.aihuau.com/a/25101012/124532.html

更多阅读

误格式化SD卡数据恢复的小技巧 误格式化sd卡

误格式化SD卡数据恢复的小技巧——简介如果数据里面没重要数据,可以直接格式化或者右击我的电脑-管理-磁盘管理格式化它,一般格式化了就能用了,如果格式化不了就说明硬件问题,没办法了。其实,随着现代技术的发展和软件的功能性强大,SD卡被

声卡驱动的安装和调试以及使用技巧 创新声卡调试技巧

声卡驱动的安装和调试以及使用技巧——简介电脑使用的过程中声卡是一个很关键的因素,我们欣赏电影、听音乐、包括玩游戏,声音的品质好坏都是声卡决定的,我们要学会调试声卡和安装声卡,同时也要掌握声卡的使用技巧,这样我们才可以听到高品

Kx驱动的安装教程 kx3538驱动安装教程

Kx驱动的安装教程——简介一般创新声卡的朋友都不喜欢装原版驱动,喜欢装Kx驱动 同样KX驱动也是根据创新声卡研发的一款驱动。 KX驱动的优势就是网络K歌用起来比较方便、易懂、效果多。 缺点就是容易出错 比较难安装 毕竟不是原装驱动

龚隽:禅学的生命智慧

(2011-05-19 00:34:12) 转载标签: 文化分类: 佛学时间:2011年4月30日上午  地点:广东省立中山图书馆主讲人:中山大学人文学院佛学研究中心主任、博士生导师 龚隽陈实:各位街坊,各位听众,亲爱的朋友们,“岭南大讲坛·文化论坛”第七十九讲

声明:《陈钢 数据驱动的生命科学 北京大学生命科学学院》为网友像迯跑賊分享!如侵犯到您的合法权益请联系我们删除