您好,欢迎您

医学大数据:大数据分析还是大样本数据分析?

2018年05月15日
作者:袁联雄老师
来源:郑正有词微信公众号

医学大数据:大数据分析还是大样本数据分析?

1.jpg近年来,关于大数据的研究和讨论如火如荼,从国家层面的顶层设计到每一个科研人员,都对大数据投入了极大的热情,关注和从事大数据相关的研究人员遍及了各个领域。因为一点生物医学统计的背景,袁老师也接触了不少临床研究的统计分析,不时就会听到有人说诸如“我想做大数据”,“我有大数据”,那么到底什么是大数据,在临床医学领域,大数据分析和我们传统的临床研究统计分析有什么不同呢,这一期,袁老师抛砖引玉,希望与各位同道一起聊聊对大数据分析的观点。

IBM提出了大数据的5V特点,Volume(海量)、Velocity(高速增长)、Variety(信息多样化)、Value(低价值密度)、Veracity(真实性),其中海量、高速增长和信息多样化是最显著的特征。从IT行业到商业到医疗行业、大数据除了数据量大,数据结构复杂以外,在数据分析上也有自己独特的一面:

1)通常是一种模式的分析:如根据用户既往网络搜索形式向用户推送新闻或广告,经常浏览UC推送新闻的人可能会发现,在你慢慢使用过程中某一类或某几类新闻出现的比重会月来越高(前提是不会频繁清理软件缓存),这是因为软件记录了你的使用习惯,一种简单的理解方式可以是:将新闻归类后,统计你过往一段时间内各类新闻的点击数并计算百分比,以这个百分比构成作为随后一段时间各类新闻推送量的百分比或概率;又比如移动公司向你推送某个套餐或者银行邀请你办理某种信用卡或者理财产品,它也许就是通过你过去半年或1年内充值情况、国内通话时长、市内通话时长、流量使用情况、刷卡地点、消费种类、每月消费额等将你和其它行为相近的人做了下聚类,对你们这一类的人的行为特点做了个画像,很不巧的是还挺符合他们旗下某种产品的特点,如果没有符合的,而你们这个群体又足够大,消费能力尚可,那恭喜你,也许很快就会有个针对你的新产品问世;

2)并不在意某一个或某几个指标的特殊意义、作用大小与具体作用方式,更关心的是找到一个较优的指标组合或者找到一个较好的映射方式,把这些指标和某个关心的结局很好的联系起来:如骚扰电话或短信的自动识别,在数据探索和专家意见的基础上,选择了一些合适的指标如发送频次和一些关键词锁定,然后通过某种模型如logistics回归、随机森林、支持向量机、贝叶斯模型等等,只要最终区分正常短信和骚扰短信的效果可观,至于这些指标的作用到底有多大并不是工程师关心的问题;又如医学影像数据的自动识别和疾病预测,目前大多使用了卷积神经网络作为算法工具,这一建模过程中并不关心某个像素或者某个区块的具体作用,通过一级一级的映射,像素级的数据被整理成一个个特征储存在模型里,并最终与疾病或临床结局关联起来。

3)大多时候是高维的:即变量个数非常多,如论文相似度检测过程中通过分词,一篇文章可以分出几千上万的词,语音识别和图像识别领域,一个单词或者一个像素的特征都可以作为一个变量,此时,经典的变量筛选方式如stepwise或预测模型如线性回归、logistics回归等可能实用性较差,需要一些特殊的降维方式或机器学习算法。

4)数据驱动的分析过程:即研究一开始,对各个变量或指标之间的关系没有太多的假设,通过数据可视化或关联分析等方式来探索指标关系或可能的异常分布,甚至在特定情况下忽略这些探索过程直接采用算法建模进行预测或者异常情况的检测,在数据结果出来后再结合专业知识去解释或进一步优化模型。

在临床医学领域,在大数据分析兴起之前主要的研究方式包括:回顾性分析、队列研究、RCT等,研究关心的是:1)疗效或疗效差异问题,2)影响因素分析,即某个或某些指标的作用方向和大小,3)风险预测分析,在筛选出主要影响因素的基础上,采用回归模型来预测疾病或死亡等发生的风险。这些研究有几个固有的特定:1)理论假设驱动数据分析。即首先在临床实践中产生问题的假设,如某两种治疗方式的治疗效果可能存在差异,某个或某类检测指标的增高可能引起疾病风险的增加,然后再收集数据验证这个以临床假设;2)所需的样本量通常不会太大。一方面由于研究假设来源于临床实践,假设成立的可能性较大,另一方面如果几百例研究对象不足以发现治疗效果或是差异,而需要几千、几万例才可以,那可以想象这得是多么小的效应,那临床意义显然就是缺乏的。而目前临床研究者中有不少从事这些经典临床研究的研究人员因为手头数据量足够大或标本足够多就理所应当的认为自己是在做大数据分析,对比前面说到的大数据的几个特点,袁老师认为这种“大数据分析”称之为“大样本数据分析”可能更为合适,且这种“大数据”可能仅仅在第3类应用风险预测分析上有较好的价值:数据代表性增加,足够做训练集和验证集,提高预测效能!

当然临床医学领域也能有自己典型的大数据分析,如前面说的图像识别;如DRGs;又如在电子病历数据等医疗电子记录的基础上可以做临床路径分析;根据门诊医生既往接诊效率和挂号病人既往门诊住院看病情况、预约挂号时登记的主诉情况等可以做门诊排队叫号自动管理;在大规模人群队列研究基础上分析疾病流行特征、疾病预防模式等等,但这些还都有赖于医院信息化水平不断提高,稳定的大规模人群队列的形成。

可以想象,目前,在临床医学领域,大数据分析并不是那么遍地开花、触手可及,在大多数临床研究中可能只是大样本的数据分析,当然二者各自在临床医学的发展中起着巨大的作用,只是针对的具体问题有所不同。

2.jpg

评论
2019年09月06日
张庆民
胜利油田中心医院 | 肿瘤科
学习