近年来,随着医疗健康产业信息化水平的不断提升,医疗数据的体量出现了前所未有的快速增长,医疗数据的应用也逐渐成为了医疗行业普遍关注的热点话题。在国内老龄化加重、慢病负担持续增大的压力下,国家出台大量政策鼓励使用医疗大数据推动智慧医疗建设,通过医疗大数据及人工智能的技术赋能,改善医疗需求和供给的匹配失衡,以全民健康,托起全民小康,推进健康中国战略。在我国全面启动卫生数字化转型的大背景下,医疗数据应用已经成为不可逆转的行业趋势。数据科学将逐渐渗透到健康医疗服务的各个角落,值得每一位卫生从业者学习和掌握。
医疗数据是一个宽泛的概念,它包含了各种与健康和疾病相关的数据,例如疾病诊疗数据、临床研究和实验室数据、生物信息数据(如基因组学、转录组学、蛋白组学、代谢组学等数据)以及健康管理数据(如可穿戴设备监测数据)等。医疗数据的积累为人工智能等数据科学手段提供了施展拳脚的舞台,数据科学的进步又为医疗大数据的应用提供了全新的技术手段。两者的相互成就,促成了目前医疗大数据产业的繁荣。近年来,基于数据驱动的医疗人工智能产品层出不穷,其中一些具有代表性的产品,如肺结节的智能诊断、输血智能预测和深静脉血栓预警系统等,已经应用到实际临床业务场景中。在学术方面,人工智能领域的诸多算法为临床及基础研究提供了全新思路。基于数据科学技术手段的医工结合,已经成为医疗乃至生命科学领域非常重要的交叉学科发展方向。
然而,纵观近年来大数据和人工智能对医疗行业的影响,可谓广度喜人而深度不足。在诸多医疗人工智能产品中,得皮毛者多,得精髓者少。目前,医疗大数据与人工智能的从业者多是信息技术人员,他们虽深谙数据科学技术,却缺乏医疗业务经验,无法深刻理解医疗数据的产生背景和行业隐喻,也无法全面掌握在实际医疗场景下的决策要素与思辨逻辑。而医疗健康服务的实施者,包括医疗管理者和医务工作者,虽然在医疗行业深耕多年,但长期积累的行业经验在数据科学时代往往会成为一柄双刃剑——在帮助他们胜任日常工作的同时也成为束缚思维的枷锁。传统医疗从业者常常因为数据科学知识欠缺而无法匹配数据科学与医疗业务的底层逻辑,因此无法与数据产品完成有效的协同交互,更无法充分利用数据科学提升医疗健康服务的质量和内涵。由于行业壁垒的限制,很多数据科学产品在临床中的应用流于形式。甚至近年来,智慧医疗领域存在一种认识上的误区,认为数据赋能医疗的具体方式是以特定数据产品的形式呈现的。笔者认为,数据产品虽然是智慧医疗建设的重要组成部分,但它们只能是特定的工具,服务于特定状态下的时期和场景,一旦脱离产品的设计框架,使用者就无法获得可信的决策建议。数据改变医疗的着力点,一定是改变医疗行为决策的思维意识形态,而并非依赖业务伴随系统。数据科学是一种工具,更是一种能力,一种不断用数据提出问题和解决问题的能力。我们需要不断地提问和回答,需要用什么样的数据,来解决什么样的问题。现实问题的多样性、时效性、地域性和不稳定性等特点决定了要以更灵活的方式处理数据,借助科学的思维方式不断地求索、推理和决策。这正是数据科学家们的日常工作。
数据科学的探索过程大多是通过编程实现的,但是这种编程和传统信息行业存在明显的区别:后者多以实现某种具体功能为目的,程序员通过计算机语言把人的想法实现,这个过程更多的是人到计算机的单向输出;而数据科学家的编程是以数学语言为媒介和数据不断对话的过程。例如在拿到一个数据集后,我们要知道每个变量的样本分布、了解缺失值的分布和产生原因、了解不同类别样本的均衡性、评估各类分析方法使用的合理性等等。我们称这种编程方式为“文学式编程”,它是一个充满故事性的数据叙事过程。在未来,基于文学式编程的交互式分析将成为数据分析的主流方式。相比于传统编程,数据科学更接近一种思想和文化。国际知名数据分析公司Juice Analytics的创始人曾写过一本专注于“数据畅流”理念的著作——Data Fluency: Empowering Your Organization With Effective Data Communication。数据畅流指的是运用数据语言流畅地交换和探索组织重要思想的能力。书中认为实现数据畅流需要四个基本要件,分别为具备数据素养的消费者、熟练的数据生产者、数据畅流的文化和数据产品的生态系统。在医疗领域,医务工作者既是数据的生产者,也是数据的消费者,他们是否具备基本的数据科学素养,能否用数据发现、沟通和解决现实问题,对于是否能在医疗领域内建立数据畅流文化和数据产品生态是至关重要的。数据之于业务,好比空气之于飞鸟,流水之于游鱼。所谓忘形而得神,神明而章成。只有提高医疗从业者的数据科学素养,进而在医疗圈形成一种数据文化,才能使数据对医疗业务起到隐性的、稳固的、持续的、充分的支撑作用,才能打破隔行如隔山的窘境,充分释放大数据和人工智能在医疗行业的潜力和产能。
当前,医学发展存在四个趋势,分别为全科协同(科间协同)、全程统筹(从健康到疾病、从出生到死亡的全病程管理)、全队介入(医护、心理师、社工、康复师等)和全能应对(技术胜任力兼备人文胜任力)。前三者都需要医疗信息在不同医疗团队和地域组织间广泛互通共享,而数据科学的广泛应用也对医护人员的技术胜任力和人文胜任力提出了新的要求。在信息化和数据化的重要性一再被强调的背景下,许多进步的医疗工作者已经开始追逐数据革命浪潮,尝试学习数据科学的理论和技术。市面上相关领域的出版物很多,其中不乏经典:例如Lan Goodfellow教授所著的Deep Learning(业内又称之为花书)、周志华教授所著的《机器学习》(又叫西瓜书)和李航教授所著的《统计学习方法》等。这些著作虽然被公认为学习人工智能的经典,但是它们的默认读者都是有一定数学和编程基础的信息技术人员。书中复杂的数学公式和推理已经超出了绝大多数医务工作者的理解能力。让医务人员研读数据科学领域的专业书籍,轻者云里雾里,重者寸步难行。而市面上的一些人工智能科普读物,大多仍处在只看热闹而不讲门道的状态,无法让医务人员深刻体会到数据科学和医疗业务的逻辑共鸣。阅读此类科普书籍,并不足以改变医务工作者在实际业务中的思维方式,更不足以帮助他们利用数据科学解决现实医疗问题。因此,医疗大数据与人工智能,实则是一门谈者多懂者少的学问。这也呼应了人工智能界广为流传的一句笑谈:学习人工智能,不是从入门到精通,而是从入门到放弃。畅销书作家Malcolm Gladwell在其著作David and Goliath: Underdogs, Misfits, and the Art of Battling Giants中提出了两种学习模式——资本学习(capitalization learning)和补偿学习(compensation learning)。前者指在自己的优势知识或技能基础上进行学习,相对容易;后者是指在自己的劣势区学习,补齐短板,这无疑将会非常困难。对于医疗工作者而言,尽管医学也是一门终身学习的学问,但是大部分人的知识体系已经定型,很难再走到偏离自己认知舒适区太远的位置。而数据科学就处在这个认知能力可及区的边缘。对于大部分医务人员来说,学习数据科学是妥妥的补偿学习。如果想降低学习难度,就要从医疗从业者熟悉的领域入手,努力把补偿学习转变为资本学习。因此,为医疗从业者量身打造一本医疗数据科学的通识读物,努力为数据工作者和医务工作者建立业务契合点,是笔者作为医疗大数据践行者的夙愿。本书从医疗入手,用医生的话,讲数据的事,把对数据科学技术的讲解,融入医疗场景中。本书坚持道术融合:道者,形而
上,是抽象的,侧重于战略;术者,形而下,是具体的,侧重于战术。《道德经》有
言:“有道无术,术尚可求也。有术无道,止于术。”医疗数据科学中的“道”对应着数据科学的来龙去脉,数据思维的基本逻辑,数据与医疗的本质联系;“术”则对应着具体的算法,以及它们在医疗业务中的实际作用和具体实现。目前相关领域的读物普遍“道”与“术”难以兼顾,数据科学的庞大体系很容易将人的精力全部消耗在“术”的繁杂中,而不得入门之法。所谓道为体,术为用,道为纲,术为目。我们学习数据科学,先要明白“道”,从而理解数据;在这个基础上,再了解“术”,从而应用数据。明白了道的初衷,才能守一而用万;明白了术的逻辑,才能触类而旁通。
九层之台,起于累土,数据科学的底层是数学,绕开了数学理论,大部分算法是没办法讲透的。网上有个段子,说生活可能会欺骗你,但是数学不会,因为数学“不会”,就是“不会”。笔者同每一位医务工作者一样,深深理解非专业人士对于数学的恐惧。因此,本书在讲“术”的部分章节中,依据所涉及的数学原理从浅到深,分为不同层次进行算法讲解。读者可以根据自身的接受能力和要求选择性阅读。略过部分数学原理,并不会对算法的理解造成特别大的影响。
需要特别声明的是,数据科学和医疗行业都是快速发展的行业。数据科学作为一种思想和技术工具,如果在医疗领域只为部分研究者或技术协作者掌握,没有改变医疗一线工作者的思维方式,没有颠覆医疗相关决策所依据的思考路径,那么医疗数据科学的发展是不能被称为“成功”的。对常年忙于医疗事务性工作的一线人员而言,数据科学是相当遥远的存在。我们不能一开始就从一个高大上的角度来向医疗工作者介绍数据科学,尽管那样看似高屋建瓴,实则在阅读伊始就并非与受众读者同频思考。本书的目的,并不是向读者传递最前沿的数据科学 医疗领域知识。如果读者有这种思想,应该去读最新的研究文献,而不是读一本书。本书的初衷,是站在医疗业务的最底层,从各类医疗从业者的日常工作出发,向更高的认知高度,即:朝着数据科学的方向攀登到数据科学能够在医疗领域实现文化畅流的高度。让广大医疗临床人员、管理人员、科研人员、产业人员等,在充分认识医疗业务逻辑和思维方式的基础上理解数据科学。让医疗与数据的融合超越信息数字孪生的层面,达到医疗业务根本逻辑的数据科学思想孪生层面。让数据为医疗代言,促进数据科学在医疗领域工具化、语言化、思想化、文化化,借此改变医疗工作人员的思维范式,尽可能消除医工交叉团队之间的专业隔阂,从而促进数据科学在医疗领域发挥更大的作用并加速其向前
发展。
数据科学与健康医疗的文化融合,其意义远不止于改善当前健康医疗领域的业务现状,更在于医学科学的发展和传承。著名教育家约翰·杜威(John Dewey)曾说:“如果我们用过去的方式教育现在的孩子,就是在剥夺他们的未来。”在数据科学与健康医学广泛融合并协同发展的今天,只有广大医疗卫生从业者转变思维方式,拥抱数据科学,才能让下一代医学人站在更高的起点向上攀登。因此,本书亦可作为健康、医疗、数据相关课程的参考用书,以及面向医疗首席数据官的通识读物。图1、图2和图3给出了本书主要内容的思维导图,供读者预览。
医学知识浩如烟海,数据理论博大精深。笔者诚惶诚恐,希望尽绵薄之力,推动医疗数据科学的普及和发展。由于能力有限,书中难免有不当和错误之处,还望读者海涵和指正,不胜感激!