导语:BrnardMarr是大数据布道者,著名科技作家,顶级商业数据专家。本文只有一小部分编译于BrnardMarr写的文章,编译者又扩写了70%的内容。
为什么要编译这篇文章,一方面是讲述大数据在生活中的应用,另一方面,作者则写了一些话:
通过编译与癌症有关的文献得知,有近90%的癌症患病风险与人们的生活方式密切相关,而程序员群体的生活方式,很多都处于不健康或亚健康状态,如熬夜、加班、抽烟、缺乏运动,都是很多程序员的日常生活状态。我们与其用寄希望于用最先进的技术(如大数据)来诊断和治疗癌症,远远不如用良好的生活方式将癌症“扼杀于摇篮当中”。
年7月初,李开复先生在癌症医治康复后,在其微博上解嘲自己:大家以后不要叫我李开复,叫我李康复就好了。如果生命可以后退30年,或许李先生会重新选择自己的生活方式。有句话说得好:健康是前面的1,事业、财富、名利等都是其后的0,失去前面的1、一切皆为零!
知易行难,共勉之!
以下是正文:
目前,当人们在谈及大数据时,大家更为津津乐道的是,如何利用大数据技术,挖掘出数据背后的商业新模式——然后利用这种“新”模式为公司谋取商业利益。这也难怪,无利不起早。当下,大数据之所以能发展壮大,热火朝天,来自于诸如谷歌(Googl)、亚马逊(Amazon)及脸谱(Facbook)等互联网巨头的大力推动,功不可没。
人类社会已经开启了三次产业革命。第一次产业革命,是以蒸汽机为标志。第二次产业革命,是以内燃机和电力发明为标志,第三次产业革命,是以可再生能源(如核能)和互联网为标志。有研究表明,大数据或作为动力引擎之一,引领人类的第四次产业革命。
如果大数据的用途,仅局限于帮商业大佬们挣点钱花,那它绝对不能担当起“天将降大任于斯人也”的重责。目前,科学技术已极大地拓展了人类的视野,大到通过是通过天文望远镜,探索浩瀚无边的宇宙空间,小到利用显微镜细,致观察构成自然界的最小微生物,科学技术无不扮演着重要的角色。
然而,多年以来,在人类社会,一直存在着一个难以降服的恶疾——癌症,严重威胁人类的生命健康。目前,癌症已成为全球发病和死亡的最主要原因之一。据世界卫生组织(WTO)年最新的统计资料显示统计资料显示,仅年一年就有约万新发癌症病例和万例癌症相关病例死亡。在未来20年里,新发病例数将增加约70%,即死亡病例将从由年的万上升到万。
在过去的50多年里,经过人类社会不断的努力,癌症治愈率仅仅提升了不到8%。这是人类社会所有疑难杂病中,治愈率提升最为缓慢的一种疾病。如果某项技术能较大提升癌症的治愈率,那可真是“善莫大焉”。事实上,大数据站在当前信息领域的最前沿,在对抗癌症的斗争中,可以走得更远。
本文如下的篇幅主要分为下面6个小部分,分别用来回答如下6个小问题:(1)什么是大数据?(2)癌症的成因是什么?(3)大数据用之于癌症,都有哪些挑战?(4)当前都有哪些机构在用大数据抗争癌症?(5)癌症诊疗的大数据主要源于何方?(6)大数据对抗癌症的前景如何?下面一一给予介绍。
1.什么是大数据?
在谈及大数据之前,我们先说说什么是数据。
从一开始起,人类很多的生产及交换活动,都是以数据为基础展开的。例如,度量衡和货币的背后都是数据。人类最早有关数据存储和分析的例子,莫过于记账(或记录财产)用的符木(Tallystick)。例如,年,在乌干达发现的伊桑戈骨(Ishangobon),就是史前数据存储和计算的最早的物证(如图1所示)。伊桑戈骨是一种由狒狒骨制作而成,距今已超过20,年。
图1旧石器时代晚期的伊桑戈骨头(IshangoBon)(图片来源:由译者根据维基百科图片二次绘制而成)
旧石器时代的部落成员(特别是首领),通常会在树棍或者动物骨头上刻下凹槽,用以记录日常的交易活动或物品供应。通过比较树棍或骨头上凹痕的多少与变化,来进行基本的数据运算,从而可使部落首领够对一些事情进行预测,如山洞里食物还可维持几天,何时再去打几只野兔等。
在本质上,数据代表的是已发生的事实,其核心的作用则是对未来的预测。
数据的发明,对人类文明的进步,发挥了举足轻重的作用。传统意义上的“数据”,可视为“有依据的数字”。数字之所以诞生,就是因为人类在长期的实践过程中体会到,难以仅仅用语言、文字和图像,来精确描绘自己身边的世界。例如,由于每个人对“很”、“非常”这类虚词理解不一样,当有人问“今天天气有多热”,如果回答说“很热”、“非常热”,别人听到后,也只能获取一个大致的抽象印象。但如果用数字描述“今天40摄氏度”,就会毫不含糊,一清二楚。
把视野拉回当下。当人类社会进入信息时代以后,“数据”的内涵大大地被延展了,数据不仅是指“有根据的数字”,还包括存储在计算机中的信息,如表格、文本、图片、音频和视频等。
图年~年这30年的全球信息存储容量变化(图片来源:wikipdia.org)
有研究资料显示,自年以来,全球信息总量每24个月就可以翻一番。当时间迈过21世纪,自年数字时代开启以来,数据呈现海量增长趋势(如图2所示)。特别是在年社交媒体产生后,人人都是数据的生产者,数据更是呈现爆炸性增长趋势,大数据开始迈入大众的视野。
由于处于计算机科学的前沿,大数据并没有公认的定义。世界著名咨询机构麦肯锡(McKinsy)公司于年5月发布《大数据:下一个创新、竞争和生产力的前沿》的研究报告,报告认为:“大数据是指,大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。”
麦肯锡的这个定义有意地带有主观性,对于“究竟多大才算大数据”,其标准是可以调整的。脸谱(Facbook)的工程总监Parikh认为,“大数据”要有“大价值”。“大数据的意义在于,能从数据中挖掘出能对商业有价值的决策力和洞察力。如果不能好好利用自己收集到的数据,那么空有一堆数据,即使体量再大,也不能称之为大数据。”
在大数据时代,由于我们创造的或采集的数据量呈现爆炸性增长,与此同时,随着先进的高性能计算技术和便捷的云计算技术的发展,给我们分析这些海量大数据提供了巨大的契机。抓住这个契机,比以往任何时候都更加重要。
针对癌症研究,年3月,世界顶级学术期刊《Cll》发表了一篇题为《从癌症基因组中得到的教训》(LssonsfromthCancrGnom),研究表明,很多肿瘤的发病概率呈现出一种类似于长尾分布(“longtail”distributions)的特征(如图3所示),也就是说,癌症作为一种基因突变疾病,虽然对部分癌症类型,是由于某些特定基因高频突变所致,但是更多的癌症,是由很多的发生概率极小的基因突变所致。
图3长尾模型(图片来源:由编译者根据维基百科图片二次绘制而成)
由于很多诊疗机构的癌症基因组样本拥有量非常有限,这样就导致,在小样本集合里,很多出于长尾部分的基因突变,由于发生概率极低,研究机构极有可能无法观察到这种基因突变。
此外,由于机构之间的商业利益纷争,加之出于癌症患者隐私的保护,医疗机构间的癌症诊疗基因数据无法互访,彼此为对方的信息“孤岛”。
信息壁垒是延缓这种严重威胁人类生命健康研究进展的重大原因之一。这在某种程度上解释了为什么过去50年癌症的治愈率仅仅提升了8%,这在所有的疑难杂症中是提升最少的!(注:若想了解更多具体详情,建议读者可参阅南加州大学著名肿瘤学专家、乔布斯的主治医生之一戴维?阿古斯的推出著作《疾病的终结》(Thndofillnss))。
那有没有什么办法,来改善这种情况呢?
事实上,我们可从过往的历史中,寻找一点点启迪。
世界上,第一家欧洲咖啡馆(CoffHous)是于年在威尼斯开办的。咖啡馆开办的目的在于,提供一个交流的平台,让三教九流不同种类的人,能够聚在一起,指点江山,侃侃大山,从而完成思想的碰撞,进而产生新的价值——比如,促成一场新的贸易等。在咖啡馆里,有一个特征是值得特别注意的,大家聊完天,侃完大山,各回各家,各找各妈,谁也没有损失!
试想一下,如果让多家医疗研究机构的癌症诊疗数据,也能在“数字咖啡馆”走一遭,碰一碰,或许也能碰撞出“新的火花”,加速癌症的研究。这里的“数据咖啡馆”是由英特尔公司主导开发了一项数据共享技术。针对癌症研究,数据咖啡馆的核心理念就是,让不同研究机构的癌症诊断数据,“可用但不可见”——在不破坏数据归属的基础上,完成对可用信息的提取,这真是个了不起的想法(注:案例介绍来自于英特尔中国研究院院长吴甘沙先生的讲座)!
癌症如此的难以克服,那么癌症从何而来呢?有什么办法可以预防?下一节,我们将讨论这个议题。
2.癌症从哪里来?
癌症是什么?癌症是一组与基因突变有关的疾病,其特征表现为,异常细胞生长不受控制,且肆意攻击正常细胞组织。如果癌症细胞一旦失控扩散,就会导致癌症细胞的宿主(这里通常指的是人)死亡。
所谓基因,是指携带有遗传信息的DNA序列片段,它是控制性状的基本遗传单位。由于DNA分子中发生碱基对的增添、缺失或改变,从而引起基因结构的改变,称之为基因突变。导致基因突变,进而引发癌症病发的因素有二,下面分别给予简要介绍:
2.1外在因素
据美国最知名的癌症研究中心——MD安德森研究表明,所谓的外部环境泛指所有非遗传因素,包括但不限于,不良的生活方式(如滥用烟草,酗酒)、缺乏体力活动、工作压力大、环境污染,主(被)动地接触传染性生物体、不良化学品和辐射等。这些外在因素占癌症发病率比例的90%~95%!其中,最常见的外在因素导致癌症死亡比例中,滥用烟草占25%~30%,不良饮食和肥胖占30%~35%,单纯仅此二项之和就占据55%~65%,超过了癌症死亡的“半壁江山”。
很遗憾地说,这类癌症导致的“不可活”,多是源于病人自己的“自作孽”!
下面举例说明之。图4所示为烟草消费量与20年后肺癌发病率的滞后相关性。所谓“相关性”,是指两个或两个以上变量的取值之间存在某种规律性。这种相关性的滞后,是很容易理解的。因为今天抽支烟,并不会立马就让抽烟者的肺部有癌症病症。事实上,抽烟的危害作用是可以日积月累的,它的“功效”能潜伏20年之久!
图4烟草消费类于肺癌发病率高度相关(图片来源:wikipdia.org)
换句话说,20岁的你,年轻任性,“一枝梨花压海棠”,潇洒地抽了一口烟,就为人到中年、事业有成40岁左右的你,培养了一个可能突变的癌细胞。但正因为这个巨大的滞后时间间隔——20年,“麻痹”了很多人:抽支烟,解解乏,也没有什么大不了的。殊不知,这种烟草消耗量和肺癌发病率的巨大的相关性,不得不让人们侧目、反省、深思。
当然,也会有人会站在学术层面表态:“相关性”不代表“因果性!”
的确,从严格意义上讲,统计学无法检验逻辑上的因果关系。根据统计结果,可以说“抽烟人群的肺癌发病率,会比不抽烟人群的发病率,高好几倍”,但统计结果无法得出“抽烟致癌”的逻辑结论。
中国概率统计领域的奠基人、国际著名数理统计学家陈希孺院士,生前常用这个例子来说明统计学的特点(案例来源:李国杰院士《大数据研究的科学价值》)。
但话说回来,大数据布道师维克托?迈尔-舍恩伯格在其著作《大数据时代》中提到的核心观点:“要相关,不要因果”。也就是说,大数据