不久前,由中华医学会细胞学组、北京大学工学院、广州安必平医药科技有限公司共同编写的《宫颈液基细胞学人工智能辅助诊断数据集标注规范与质量控制专家共识(2022版)》(以下简称“《共识》”)于《中华病理学杂志》正式发布后,引起行业高度重视与关注。

图:来自中华病理学杂志官网

据调研获知,截止目前,《共识》是宫颈液基细胞学人工智能辅助诊断数据集较为权威的指南共识,也是唯一含有一线开发经验和质量控制的共识;

是由医院、学院、企业三方对病理行业热点问题的重点思考,既充分认可人工智能技术在病理诊断领域发展的趋势,也对宫颈癌人工智能辅助筛查产品缺乏数据标准化的现状作出方向引导;

参编企业安必平自成立起多年深耕液基细胞病理,也是国内病理诊断领域首家上市公司,拥有完整的宫颈癌筛查整体解决方案,最近旗下宫颈液基细胞学图像辅助诊断软件(LBP-PIAS)获得美国ASCCP科技创新奖,启动了多中心临床试验学者研讨会,正迈入III类产品注册证申报工作。

因此,编辑邀请了参编团队之一——安必平细胞学学科带头人彭振武老师进行专业解读:

一、从建议标准数据集的意义与价值

文中提到“解决当前宫颈癌人工智能辅助筛查产品缺乏标准化标注数据集且难以开展规范化质量可控的算法训练和评估问题”。

是指宫颈细胞学人工智能产品,在研发阶段缺少标准数据集,就容易造成数据缺少代表性,无效重复导致数据浪费。

众多产品研发出来在市场上激烈竞争,厂家各自引用自家实验室的数据测试结果展示产品性能,一项项漂亮数据带来的反而是病理诊断从业人员的困惑与质疑。

建立标准数据集,企业可以更好的去定义产品进行算法训练,医生可以更好的选择产品用于辅助诊断,行业协会可以更好的组织质量评估进行质控。

二、标准数据集选用液基制片技术

专家共识强调这点,是因为液基细胞学与传统涂片对比:通过保存液保存样本,细胞及时固定,形态更加完好;液基制片通过前期处理,去除样本中的杂质成分,制片背景干净清晰;液基制片细胞薄层均匀平铺,利于医生提高诊断效率及诊断准确率。

目前,各级医院都已经开展宫颈液基细胞学,但是两癌筛查以及第三方检验还有着大量的传统涂片,而这恰恰是人工智能最有价值的应用领域。

专家共识强调数据集来源于液基制片,就是希望在各方努力下,液基细胞学能真正广泛应用到大规模体检及两癌筛查中去,使得科学技术为人民健康赋能。

三、标准数据集细胞病理图像的要求

只有质量合格的数据才能入组数据集,这就说明人工智能得以实现的前提条件一定是数据来源的规范化与标准化。

任何图像数据理论上都可以用于算法分析,而大量不符合标准的低质量数据,即是对算法资源的浪费,也无法训练出性能良好的AI模型。

液基制片效果不好,图像数据就不好,医生镜下阅片还可以容忍,灵活的出报告,而算法是不会容忍这种情况的,最终导致的结果就是假阳性判断,筛阴率显著下降。

企业在开发人工智能产品过程中,如果一味追求产品适用的广度,就会入组更多不符合专家共识中要求的图像数据来进行算法训练,这就好比饮鸩止渴,不去面对问题的本质情况,只求解决目前困难。

宫颈细胞学人工智能这个行业的发展,需要从数据的源头加以规范,杜绝那些通过训练一些不合规的数据短时间扩大产品的适应范围,那将步入一种恶性循环。

四、数据来源多样性设定要求

很多企业的人工智能产品都是在很短时间内研发出来,必然存在一种情况就是数据来源的多样性不符合要求。

人工智能产品在真实世界的应用,这是一定会遇到的问题,在更为严格的三类证临床试验设计中,也强调了数据样本的多样性,对于试验样本例数要求较少。

专家共识强调了数据来源以及数据类型,其目的正如文中所言“不同病变类型的分布比例应足够用于评价和推论人工智能算法的安全性和有效性,满足统计学以及相关法规要求。”

五、数据集标注规范要求

颈细胞学人工智能的实现,与由数字切片扫描仪,算法分析模块及标注准确的数据密切相关,尤其是标注规范且准确的数据。

专家共识从标注医生,标注内容与流程,标注一致性,标注方式与规则,标注分类这五个方面给出了建议。

严格的标注流程设计与标注一致性的评定,是为了保证标注数据的准确性。

标注分类是给人工智能产品形态的设定提出参考意见,基于全片的分析采用阴性与阳性的分类,与国家食品药品监督管理局规定的产品适用范围是一致的,核心思想就是人工智能产品不能直接出阴性报告,也不能直接进行形态学的判读。

阴性与阳性的分类就是一个风险评估,所有人工智能结果的片子都需要细胞病理医生进行复核,通过对更符合医生阅片习惯的系统操作界面的开发设计,也带来更大的阅片效率与诊断准确性的提升。

总结:宫颈液基细胞学人工智能辅助诊断数据集标注规范质量控制专家共识(2022版)具有极大启示和指导意义,作为企业或者厂家,从研发阶段就应强调标准规范的数据,这是人工智能产品应用的前提条件,不盲目扩大人工智能产品的价值,要满足数据质量,要满足数据多样性,要满足标注规范保证数据的精准,并把通过这些数据训练出来的人工智能产品定义在辅助医生阅片这个角色。

未来,随着宫颈细胞学人工智能产品的广泛应用,随着数据得到更好的挖掘,可能会有不同的规范标准来适应时代的进步。同时现在也是未来,我们应该充分利用这篇专家共识的指导思想,做好目前的工作,一步一个脚印的发展前进!

彭振武 病理医生,培训讲师

广东省病理诊断工程技术研究中心细胞病理室主任

广州安必平医学检验所细胞室主任

广州安必平公司液基细胞学产品事业部总监

广东医科大学外聘讲师

安徽省,江西省,云南省病理质控中心宫颈细胞学特聘讲师

广西临床病理质量控制中心细胞病理学质控组特聘专家

从事细胞学专业培训十余年,到过600多家医院进行讲学,举办省级培训80余场,网络讲座400多次,参与CSCCP培训20余次;

2017年,成立“彭振武工作室”,分享个人细胞学阅片经验,粉丝超8000余人;

2018年,出版个人著作《实用宫颈液基细胞学病理诊断》;

2018年,开办“爱病理宫颈细胞学网络学院”,每年培养细胞病理医生300余人;

2020年,开办“爱病理非妇科细胞学网络学院”,每年培养非妇科细胞学阅片医生200余人;

2022年,参与编写《宫颈液基细胞学人工智能辅助诊断数据集标注规范与质量控制专家共识》;