《自然·医学》刊登中国科学家癌症筛查关键突破

知识分子 5 Months 0

图源：pixabay
11月20日，国际医学顶级期刊Nature Medicine发表最新研究表明，通过“平扫CT+AI”的结合，准确识别早期胰腺癌病变，这意味着，我们或将拥有大规模筛查早期胰腺癌的有效手段。

根据文章披露的数据，研究团队之一，阿里巴巴达摩院医疗AI团队和上海市胰腺疾病研究所的临床伙伴一起用PANDA模型对2万多真实临床场景中的连续病人进行筛查的过程中，共发现了31例临床漏诊病变，其中2例早期胰腺癌患者目前已完成手术治愈。

在Nature Medicine为该文配发的评论文章中评价其为“极具前途的方法“，指出一个医疗影像AI的黄金时代已准备就绪。

《自然·医学》刊登中国科学家关键突破：癌症筛查的黄金时代准备就绪

撰文 | 李珊珊

● 　● 　●

一个年轻的影像科医生想要向胰腺癌开战

在开启这段技术的壮志之途前，先讲一个悲伤的故事。

上海市胰腺疾病研究所的曹凯医生，在做学生时碰到的一位给予他巨大的耐心和充分的试错空间的老师突发胰腺癌，那位医生本身就是肠胃科的主任医师，医院几乎集中了中国最好的胰腺癌诊疗资源，全力抢救，然而，因为发现时已经是晚期了，确诊后又过了一年多的时间，老师还是去世了。

老师去世后，曹凯仔细翻阅老师的体检资料，发现一张确诊前10个月时为了进行肺结节筛查而拍摄的平扫CT片子，如果仔细看，调窗不断放大，病变的位置便能看出与健康的影像不同。然而，如果不是先入为主的知道这个人有胰腺癌，这样的细微区别几乎很少人会注意到。

这个发现让曹凯非常震惊，这会不会是一个方法，可以不再“让胰腺癌把我们身边的挚爱亲朋一个个夺走”？

因为平均五年生存率不到10%，胰腺癌是中国乃至全球生存率最低的恶性肿瘤之一，常被称为“癌中之王”，中国知名的流行病学家吴尊友也是因这种肿瘤而去世。它是美国第三大致死癌种，预计2030年会升到第二位。根据中国国家癌症中心2021年的统计数据显示，胰腺癌位居我国男性恶性肿瘤发病率的第 7 位，女性的第 11 位，占恶性肿瘤相关死亡率的第 6 位，且死亡率和发病率都呈上升趋势。

另一方面，胰腺癌的诊治又一直举步维艰，根据美国癌症研究协会最近给拜登癌症登月计划的建议，几大主要癌症死亡率都在降低，只有胰腺癌在升高。对于胰腺癌，至今没有什么特效药，根治性手术切除是目前唯一的治愈途径，然而，因为胰腺癌早期患者并没有明显不适症状，大部分患者在确诊时已经到了晚期。

曹凯说：“胰腺癌预后不好，一个重要原因是发现的都比较晚，确诊后能够作根治性手术的患者不超过20%”。

最近的一些比较权威的临床研究表明，早期或者偶然发现的胰腺癌患者的生存率可以很高，比如9.8年，然而，即便是临床指南，也并不推荐普通人群开展胰腺癌的早筛。

曹凯解释：不推荐胰腺癌早筛，一个原因是胰腺癌的发病率不高，普通人群10万个人里仅有不到13个胰腺癌，开展早筛需要使用昂贵且有辐射风险的增强CT，成本效益太低；另一个原因则是胰腺癌的早筛工具普遍准确率不高，用起来不“趁手”，会出现很多误诊的情况，会给老百姓增添许多不必要的恐慌。”

那么，平扫CT能不能成为一个靠谱的胰腺癌早筛工具？自老师因胰腺癌去世之后，这个问题如同一棵种子，埋在了这位年轻医生的脑子里，直到有一天，通过共同朋友的介绍，曹凯碰见了一位人工智能专家——达摩院医疗AI团队负责人吕乐。

吕乐是约翰霍普金斯大学计算机科学博士，毕业后先后在西门子和NIH从事医学影像和临床信息学方面的研发十余年，见到曹凯之前，吕乐早已参与过很多涉及慢性病和癌症肿瘤疾病的人工智能和临床解决方案的研究。

这位人工智能专家对胰腺癌的深入了解令这位放射科医生非常震惊，而这位放射科医生提供的关于平扫CT中早期胰腺癌迹象的信息同样令人工智能专家非常吃惊。

两人一拍即合，同时认识到人类肉眼很难捕捉到的平扫CT微小的密度差异，可以交给人工智能试试。

“沟通非常丝滑，我们决定尝试一下”，曹凯回忆道。

让AI做人类做不好的工作

在某些窄领域的医疗图像分析任务上，人工智能的判断可以比人眼观察更准确，这是吕乐在西门子工作时期就知道的一个事实。

11年前，在西门子工作6年之后，为了更深入地了解临床，吕乐去了美国国立卫生研究院（NIH），NIH工作5年后，这位医疗AI专家开始希望去到一个云平台技术公司，”因为我们在做的这类东西如果做得好，就该放在云上了，让医疗机构们方便调用，这样才能真正地帮助到千千万万的病人。”

基于这个目标，吕乐来到达摩院，投入达摩院的医疗AI计划，在那里，搭建自己梦想中的那个帮助医生，治愈更多病人的研究团队。

对于一个人类也做不好的工作，没有什么既定的工作流程可以学习，AI只能靠大量的相关图像数据来学习、迭代。

深度学习的方法进行影像识别的训练，第一个麻烦是数据，需要大规模、高质量的数据，这些数据需要覆盖患者的筛查、诊断和随访。

“与目前市面上的大部分LMM模型不同，我们的数据集都来自真实的患者数据，而且并非直接来自医生的人工标注”，吕乐这样表示，然而，这些真实数据的采集和整理，“需要曹医生他们大量的工作去整理病人的全临床周期真实临床数据，用后面确诊的信息来指导前面的临床早筛”。这是一个由志同道合的医生、人工智能研究者和AI协力完成的工作。

幸而，中国的大三甲医院中，有能力、有意愿提供这类数据的意愿并不少见，而且，中国研究性医院的医生们的科研热情更是让吕乐吃惊。

吕乐说：“我们最需要的是医生可以跟我们志同道合地去整理临床数据，去整理临床问题，医生们要真正愿意花时间跟我们一起去做这个事情。美国的数据肯定比中国规范，也比中国详细，但是很多美国医生会觉得挣钱就行，他们对研究没什么兴趣，不愿意花时间和我们一起来做这个事情。而在中国，医生们对科研充满热情。”

在吕乐描述的场景中，早期，每天日常诊疗工作结束后，医生会把病人的病理图片、病理报告，增强CT、平扫CT等几种影像模态和病人的确诊报告放在一起，由医生手工先把病灶确定并在增强CT上勾勒出来，再由人工智能工具做三维图像配准，把病灶的三维勾画从增强CT映射到平扫CT上，来做成一个训练数据集，拿给AI学习。……这样的早期数据集做了3000多个病人。这数千三维CT影像经过医生们手工标好的病灶之后，AI才学会了寻找病灶，最终标注的图像，再由医生审核。

这个工作中，有大量的人类劳动，也有大量的技术创新。吕乐团队的成员张灵博士介绍：他们内部用于不同期像CT图像配准的算法也在今年十月份MICCAI2023国际会议的权威竞赛Learn2Reg比赛中，获得全部两个赛道的冠军。

初步的模型训练完成后，研究者还需要寻找医生们进行更深度合作、多中心真实世界大数据验证，让模型更透彻地理解胰腺病灶繁杂的变化、AI出错情况、医生期望效果。

不断地迭代升级下来，这个胰腺癌早筛模型的特异性达到了99.9%，即每1000例测试只会出现1次假阳性，而其敏感性，即发现胰腺肿瘤的能力，更是达到了92.9%，相较于人工诊断提高了34.1%。

作为例子，吕乐讲起了比较热门的滴血验癌，即利用ctDNA进行癌症早筛，“这个10年前就已经出现的技术，虽然经过近几年发展的缺陷之一就是信噪比太低。因为ctDNA来源于肿瘤的碎片，而在一期和二期癌症病人血液中的肿瘤碎片非常少，很难被检测到”。而目前的大模型利用平扫CT进行肿瘤早筛，“信噪比虽然也不高，但已经远高于（发展了十多年的）ctDNA了，尤其AI读片可以看得比人细腻的多”。ctDNA还有一些其他的缺点在癌症的早筛上，比如不同人群的泛化性能上不尽如人意；一组人上“训练”的基因突变signatures可能在另外一组人群上不适用；而且肿瘤突变的signatures可以随着时间发生比较大的变化。但是根据最近发表的MD Anderson的临床工作报道，ctDNA检测却有可能在癌症的个性化治疗上能发挥很大的价值。

最终，这个大模型被命名为PANDA，取自“pancreatic cancer detection with ai”的缩写，代表这是由中国完成开发、验证的医疗AI模型，在约2万名连续病人的真实世界临床验证中，在胰腺癌以及相关肿瘤病变的鉴别诊断精度上，PANDA都显示出了更高的敏感度（找到肿瘤）和更好的特异性（低误诊），比并能够成功给出丝毫不逊色于三甲医院的CT影像报告。

PANDA的发展、评估和临床应用概述图图源[1]

PANDA的发展、评估和临床应用概述图图源[1]

那么，医疗AI最终会代替医生吗？

吕乐解释，“并不会”，虽然在在某些窄领域的医疗图像分析任务上，人工智能的判断可以比人眼观察更准确，但如PANDA这样的AI，所要做的是成为医生的一个强大助手。“我们希望做到的是把那些“病人需要，医生做不了的那些事情，用AI补起来”，吕乐这样总结道。

张灵则告诉《知识分子》，他们的对比研究发现，“AI 作为first reader对随后（不同程度胰腺影像经验的）医生的单独诊断水平提高非常非常显著。”

如无意外，这是中国放射影像方面的科研成果首次刊登于Nature Medicine，该刊的资深编辑评价该工作为“非常引人注目的研究，为使用深度学习进行胰腺癌CT筛查提供了非常坚实的论据”。论文的审稿人之一，斯坦福医学院放射肿瘤学及影像组学专家Ruijiang Li教授认为该工作是“胰腺癌筛查的正确方向迈出的重要一步”。另一位审稿人，严格而苛刻的德国胰腺癌诊疗专家Jorg Kleeff教授亦高度评价该工作“结果相当出色，可能会显著改变我们对于胰腺癌筛查的方法”。

在论文被接收的那一刻，吕乐想起了一位合作医院的主任给团队给发过的一封邮件，信中，那位在影像科工作了30多年的医生说：“希望这项技术彻底改变这一点，让胰腺病没有筛查手段的过往成为历史，真正地掌握主动权。”

一个黄金时代准备就绪？

医疗影像AI将为我们带来了什么？

研究者们曾经分享过一个案例：患者C每年都会定期去某三甲医院体检中心进行体检，并安排胸部CT检查，今年的体检并没有发现任何异常。在其体检后的第7个月，该患者的CT图像数据被纳入到PANDA的回顾性临床验证，随即被检测出存在胰腺肿瘤的概率为95%。在经过多学科会诊，院方决定召回患者C进行磁共振增强检查，后与其达成共识并成功进行了手术。术后病理报告确认为早期PNET（G1级别，1.5cm）。接下来六个月的随访显示，患者C的肿瘤并没有复发或转移。

这是该项研究成功检出的第一个胰腺神经内分泌肿瘤（PNET）的真实案例，而PNET就是导致乔布斯死亡的肿瘤。

癌症是全球最重要的公共卫生问题之一。世界卫生组织（WHO）的研究数据显示，有三分之一的癌症可通过早发现、早诊断、早治疗实现治愈。然而，现有的癌症筛查手段，往往仅适用于特定类型的癌症，而曾被寄予厚望可以进行多癌种筛查的“滴血验癌”，也遭遇到了信噪比过低，个体化差异严重等等诸多问题，导致出现最近十年内的发展并不理想。这便造成了，长期以来，我们尚缺乏一种可及性高、通用型的筛查技术来对大规模无症状人群进行癌症筛查。

这种缺失的后果是严重的，吕乐介绍道：在美国，一半的医疗费用是死者在离世前三周花掉的。到了生命最后阶段，医疗费用是指数级上升的。甚至有观点认为，美国的财政赤字也与其医疗上的花费有很大的关系。

而随着老龄化的加深，肿瘤、慢病等等疾病的发病率正在指数级上升，如果仍做不好预防，其相关的诊疗费用在每个国家几乎都是“社会承担不起的水平”，这几乎成了一个全球性的难题。

正是因此，吕乐和他的团队选择了进行肿瘤筛查，平扫CT作为切入——这是个困难却重要的问题。

平扫CT，作为大部分人年度体检的常规选项，价格低廉，接受度高。在过去，由于平扫CT图像的对比度极低，多用于肺炎、肺结节等日常疾病诊断，医生也没有在平扫CT上受过癌症诊断的训练经验，而现有的癌症早筛和诊断模型大多面向特征更明显的增强CT。但是普通没有明显症状的病人群体并不会被推荐做增强CT检查来查体。本次，PANDA的成功，几乎打开了一扇通往新世界的大门——也可以利用平扫CT进行肿瘤早筛。

用筛查的办法，“把早期的病人找出来，及早进行干预”，除了为社会节省医疗花费之外，也会极大地提高患者的生活质量。医学的目标不仅是提高人类的预期寿命，而且还要让人们高质量地活到高龄，这个目标，几乎是这位人工智能学家进入医疗AI领域的19年以来一直坚持的一个方向。

吕乐讲起了自己最近喜欢的一本书Outlive: The Science and Art of Longevity，书中，4个恶魔骑士（Housemen）拿着镰刀在人间收割，这些恶魔骑士分别对应着人类的四大健康问题——慢病、癌症、帕金森综合征和阿尔茨海默症等神经系统退行性疾病、糖尿病及相关的人体内分泌疾病。

Outlive: The Science and Art of Longevity封面图

目前，针对这四个“人类最终都需要面对的挑战”，达摩院医疗AI团队的布局已经覆盖了其中的三个——精准癌症诊疗、精准慢性病诊疗、神经退行性疾病预筛。从预防开始，利用AI放大并识别平扫CT图像中那些肉眼难以识别的细微的病灶特征，这些工具目前放在云端随时可供调用。

而这其中，对于早期癌症的诊疗和筛查是走得最快的。目前，人类致死率排名前10的肿瘤中，达摩院AI团队已覆盖了7个，除胰腺癌之外，还包括食道癌、肺癌、肝癌、乳腺癌、胃癌、肠癌等；未来，希望通过医疗影像AI实现“8+5”平扫CT的一扫多查，覆盖13种致命癌症与慢性病，最终目标是用一次平扫CT检查能够解决多种重要疾病的智能筛查、辅助诊断与定量分析。

“AI应该解决那些尚未得到解决、而病人又真切需要的临床需求。”这位达摩院医疗AI团队负责人曾经这样表达达摩院长期致力于AI与医学影像与医疗问题的融合研究的出发点。

PANDA相关的论文11月21日发表时，Nature Medicine杂志的编辑邀请两位德国临床专家为这个AI系统配发了一篇社评，标题就叫：“基于AI与医疗影像的肿瘤筛查：一个黄金时代准备就绪”（AI and imaging-based cancer screening: getting ready for prime time)。