乔布斯癌症治疗是怎么治的 (大数据与乔布斯的癌症治疗)

作者：老尸

读过《大数据时代》的朋友们都知道，其中讲到了“大数据与乔布斯的癌症治疗”。

大数据的小故事,大数据与乔布斯的癌症治疗

书中这样写道：

苹果公司的传奇总裁史蒂夫-乔布斯在与癌症斗争的过程中采用了不同的方式，成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此，他支付了高达几十万美元的费用，这是23andme报价的几百倍之多。所以，他得到的不是一个只有一系列标记的样本，他得到了包括整个基因密码的数据文档。

对于一个普通的癌症患者，医生只能期望她的DNA排列同试验中使用的样本足够相似。但是，史蒂夫-乔布斯的医生们能够基于乔布斯的特定基因组成，按所需效果用药。如果癌症病变导致药物失效，医生可以及时更换另一种药，也就是乔布斯所说的，“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说：“我要么是第一个通过这种方式战胜癌症的人，要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现，但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。

大数据的小故事,大数据与乔布斯的癌症治疗

其要讲述的原理是：全数据模式，样本=总体。

“样本=总体”是指我们能对数据进行深度探讨，而采样几乎无法达到这样的效果。上面提到的有关采样的例子证明，用采样的方法分析整个人口的情况，正确率可达97%。对于某些事物来说，3%的错误率是可以接受的。但是你无法得到一些微观细节的信息，甚至还会失去对某些特定子类别进行进一步研究的能力。正态分布是标准的。生活中真正有趣的事情经常藏匿在细节之中，而采样分析法却无法捕捉到这些细节。

那么，医疗卫生数据来源于哪几个方面呢？

一是生命科学领域及医药研发领域。随着高通量测序的技术发展和逐步应用，生命科学领域的数据量正在高速增长，每台高通量的测序仪每天可产生约100GB的数据，仅华大基因一家中国基因公司，每天就有一百多台这样的测序仪在满负荷的运行着，产生10TB的数据。

二是医疗领域。就医疗机构诊疗数据看，诊疗数据结构复杂包含大量半结构化或非结构化数据，单个半结构化数据（如心电图、B超、CR、CT等）的数据量远远大于单个结构化数据（如XML文档），如一张普通CT图像大约150MB、一个标准的病理图接近5GB，而一个XML文档大小约几十K，随着医疗机构信息化建设转向临床信息系统，越来越多医院将重点建设PACS、LIS系统，从而产生大量非结构化诊疗数据。医疗领域大数据除医疗机构诊疗数据外，患者在医疗机构就医过程中还将产生挂号、缴费、新农合基金使用情况、医保资金使用情况、诊断结论、诊疗过程等数据。

大数据的小故事,大数据与乔布斯的癌症治疗

三是移动医疗领域。随着移动互联网、物联网技术的快速发展，可穿戴式医疗设备逐步从概念走向现实。可穿戴式设备最重要的应用就在医疗健康管理领域，从谷歌眼镜、苹果手表到耐克腕带等均具备一定医疗健康管理功能，为用户提供身体素质指标监测、疾病数据跟踪等服务。随着可穿戴式设备的快速发展，未来将产生大量的医疗健康数据。

面对来源丰富且日益膨胀的医疗卫生数据，目前医疗信息化的存储架构无法满足大数据应用的需要，在处理和查询大数据集时更是力不从心,需要设计新的以数据为中心的计算模型和系统架构，把医疗卫生各个业务系*独统**立的、分散的、不同品牌或不同级别的存储产品统一到一个或几个大的存储池下，形成逻辑上统一的整体，进而根据数据整合或应用整合的需要将数据迁移到相应的存储空间，从而实现医疗信息化中存储架构的统一规划和部署。

敬请关注“祝岛施主”（nbshizhu92）:一个混迹于科技与人文的幽灵，欢迎勾搭！！！