《人工智能辅助检测医疗器械临床评价注册审查指导原则》发布

11月7日，国家药监局器审中心发布《人工智能辅助检测医疗器械（软件）临床评价注册审查指导原则》（以下简称《指导原则》），我们将其中部分重点内容摘录如下：

PART.01

适用范围

人工智能医疗器械从与预期用途角度可分为辅助决策类和非辅助决策类。其中，辅助决策是指通过提供诊疗活动建议辅助医务人员进行临床决策，如通过异常识别、自动制定手术计划进行辅助分诊、辅助检测、辅助诊断、辅助治疗等。

人工智能辅助检测产品，是指基于计算机人工智能算法，可包含模式识别和数据分析等功能，通过识别、标记、突出等方式提示医师关注可能的异常/病变区域，从而辅助临床医师做出相应诊疗决策的产品，可为独立软件或嵌入式软件；分类编码为21-04-02，管理类别为III类；产品还可同时包含非辅助决策功能，如结构化报告生成、前后图像对比、正常解剖组织的分割（如肺叶、肋骨等）、尺寸测量、CT值测量等临床功能和数据储存、传输等非临床功能。人工智能辅助检测产品常见的有针对肺结节、乳腺结节、骨折、血管狭窄、结肠息肉等病变/异常的检出产品，本指导原则给出此类产品的通用要求，并以肺结节辅助检测和结肠息肉辅助检测产品为例（详见附件），阐述对人工智能辅助检测产品的临床试验中具体要素的考虑建议，同类型产品可参考相关适用部分。

本指导原则不适用于如下情形（但下述产品可参照本指导原则中适用部分的要求）：1. 可鉴别病变的性质（如良恶性）或疾病分期分型的人工智能辅助诊断类产品；2. 预测疾病发生概率的产品；3. 可同时辅助检测、鉴别诊断多种病变的多分类人工智能辅助检测产品（例如同时辅助检测并分类肺结节、条索、胸膜增厚、胸腔积液、肋骨骨折等的产品）；4. 人工智能辅助分诊、转诊产品，此类产品通过初步评估患者是否疑似患有目标疾病，从而对患者的分诊转诊提供辅助决策建议，该类产品不给出具体病变情况，且无论辅助分诊结果为阴性、阳性，均需专业医师再一次对患者影像进行评阅，常见的有糖尿病视网膜病变辅助分诊、肺炎辅助分诊、脑出血辅助分诊等；5. 配合体外诊断试剂产品使用的人工智能辅助分析软件。

PART.02

临床试验设计

临床试验目的

临床试验目的一般是评价申报产品在预期适用范围下使用时辅助检测的诊断学性能，亦可一并观察产品的可用性与安全性。

临床试验基本设计类型

人工智能辅助检测类产品的临床意义通常在于提升医师的病变检测准确度，为充分评估产品的临床受益风险可接受性，此类产品一般需考虑开展对照试验，根据产品特征及临床诊疗实际，可以为随机平行对照、交叉自身对照或多阅片者多数据样本（multiple reader multiple case，MRMC）试验设计。

试验组一般为医师在软件的辅助下完成异常/病变的检测，对照组一般为临床医师独立的异常/病变的检测，比较二者的检测准确度。

研究对象

1. 适用人群的影像学样本

预期人群的影像学样本是人工智能辅助检测产品临床试验的典型研究对象，影像学样本需基于定义明确的入选和排除标准收集，可为临床已有数据（如临床诊疗中产生的真实世界数据）。考虑到AI与医师观察、操作的协同交互等因素，基于实时影像的辅助检测产品临床试验，推荐考虑前瞻性采集影像检查，作为临床试验研究对象。

为了保证临床试验质量以及结果的可靠性，选取研究对象时，申请人需考虑如下措施：一是纳入数据样本独立于申报产品或前代产品开发所用数据集，如申报产品或前代产品的训练集、测试集。二是采用临床已有数据进行研究时，需基于明确且严格的入排标准和临床试验计划，连续收集过往某段时间内、特定医疗机构内患者影像学数据，避免主观挑选病例。三是考虑阳性样本中，目标疾病的疾病谱分布（如分型、分期）合理性，某些对辅助检测具有挑战性的分期、分型，必要时在临床试验中富集相关具有代表性的亚组。四是通常情况下，需避免在一项临床试验中同时入组同一患者同一目标部位的多组样本数据。五是临床已有数据收集时，需尽可能全面地收集与疾病相关的信息（适用的），具体包括但不限于：

1）人口统计学信息（如年龄、性别）;

2）与辅助检测目标疾病相关的信息，如病史、疾病状态、分期、分型、病变大小、病变位置、器官特征（如乳腺腺体分型）、伴随疾病等。

3）确定为阳性/阴性病例的依据，如既往诊断结论，以及确定疾病状态、部位和程度的方法。

2. 阅片者

由于阅片者表现的变异度及其与患者样本变异度和诊断方法（即AI辅助器械）之间的交互效应，一般情况下宜将阅片者列入研究对象。基于非实时影像的辅助检测产品（如肺结节/骨折/乳腺结节辅助检测等），采用MRMC设计可较好的控制阅片者偏倚，同等情况下所需的样本量一般较少，申请人可优先考虑选择。采用MRMC设计时，根据预期的使用者情况，选取不同年资的多位医师作为阅片者，申请人需论述阅片者数量的合理性。

评价指标

主要评价指标应结合产品设计特征进行综合选择，一般认为灵敏度、特异度、ROC或其衍生曲线等诊断准确性指标受样本患病率差异的影响较小，因此，宜优先考虑此类指标作为主要评价指标。

无论选择哪些指标作为主要评价指标，该类产品临床试验应当考虑整体的优效性设计，例如ROC或其衍生曲线下面积（Area Under Curve，AUC）的优效设计，或者目标疾病辅助检测特异度非劣效前提下的灵敏度优效性，或者息肉/腺瘤初检检出率的优效性等。

临床参考标准构建

申请人应详述临床参考标准的选择、构建方法及理由。可供选择的临床参考标准构建方法包括：一是以临床已确认结果为临床参考标准，即临床上结合患者影像学检查、病史、实验室检查（如病理检查）、长期随访结果等方法综合判定的临床诊断结果；二是通过专家组对研究对象（影像样本）的阅片判定作为临床参考标准。

对于人工智能辅助检测产品，若根据产品设计判定可采用专家组意见作为临床参考标准，通常可选择高年资医师组成的阅片专家组综合意见为临床参考标准，阅片专家组的成员需独立于“试验和对照组的阅片研究者”，并需要明确：1.专家数量；2.专家经验及专业水平；3.决策机制（如遵循多数意见、背靠背第三人仲裁等）；4.专家决策时所依据的信息（如图像上是否有标记，是否还提供了病史或其他检查结果等）；5.判定所依据的临床准则（如临床指南、诊疗规范、专家共识等）。

对于试验中对病灶的检出是否与临床参考标准专家组意见一致，一般可考虑：1.试验组/对照组勾画病灶的中心在专家组勾画的病灶轮廓边界范围内；2.试验组/对照组勾画病灶与专家组勾画病灶的像素重合度高于一定比例（需提供比例设定的支持依据）；若采用其他判定方法，则需论述合理性。

若采用临床已确认结果作为临床参考标准，则需明确：1.已确认结果所依据的临床信息，包括检查类型及结果；2.各类影像学检查的设备信息，包括影像检查的扫描条件等；3. 已确认结果的临床诊断依据；4.得出已确认结果的医师情况，包括专家会诊，需明确医师资质；5.若还依据了临床随访数据，则还需明确随访的时间以及随访所做的检查类型及结果。

样本量估算与统计分析

样本量估算需综合考虑临床试验设计、主要评价指标和统计学要求。申请人需明确计算公式、相应参数及确定理由，以及所用的统计软件。

临床试验资料中可以提供样本患病率以及目标疾病的流行病学研究的患病率情况进行合理性论述，并确保临床研究设计中样本数据随机分配给阅片者进行评阅。

平行对照试验样本量计算可参考《医疗器械临床试验设计指导原则》中的相关内容。

若采用MRMC的试验设计，样本量计算需首先明确具体的分析方法，如Obuchowski-Rockette Analysis（OR分析方法）、Dorfman-Berbaum-Metz-Hillis Analysis（DBMH分析法），并进一步明确受试医师数量，检验水准α、检验效能1-β、预计效应值，优效/非劣效界值，其中预计效应值可通过预试验或调研并汇总分析目标病灶检出的诊断学研究文献获得，优效/非劣效界值应通过同品种产品临床试验结果或权威文献研究等确定。不同疾病的检测效应不同，在试验设计中应明确优效/非劣效界值的设定依据。以DBMH分析法为例，样本量估算与交互随机效应值，检验的检验效能、检验水准，受试医师数量，优效界值，非劣效界值（如有）等要素有关。用于样本量估算的效应值（effect size）选择时，可通过预试验得到的误差和混合效应方差来估计，并考虑预试验样本量等情况，在预试验结果的基础上采用适度保守的估计。

所有应用了试验产品的受试医师和患者都将被纳入分析，对于主要指标，除给出主要评价指标（灵敏度、特异度、AUC）的点估计外，还将分别对其对应的95%置信区间进行估计，通过试验组与对照组的优效/非劣效比较判断本试验产品是否满足临床应用的需要。

其他临床试验设计需关注的问题

1. 临床试验培训

在试验前对阅片者开展必要的培训，可以有效降低试验的偏倚。除基本情况培训（试验流程、术语定义、数据样本阅片的评价标准等）以外，还需考虑案例培训和典型数据样本讲解等，且所用案例独立于试验研究数据样本；培训中宜设置阅片者培训结果测试及合格接受标准；建议临床试验中，对阅片者的培训与临床应用时的培训，在方法、时间、接受标准上尽量保持一致性；并考虑对临床试验阅片者资质、能力等要求与临床应用时使用者情况的匹配性。对专家组的培训时间和接受标准宜显著高于试验组/对照组的阅片者的培训时间和接受标准。

2. 影像样本评阅质量控制

一是由阅片者在独立盲法条件下对患者关于试验的影像检测结果进行解释。二是在选取试验阅片者时基于其专业能力和参与研究的可能性，充分保证阅片者对预期使用者的代表性。可考虑不同医疗机构来源、不同年资/专业水平的医师。三是将数据样本的临床诊断结果、临床参考标准判定结果、其他诊断信息（如生化检测结果、后续治疗等）或基本信息（如年龄、病史等）对试验的阅片者设盲。四是对照试验可考虑采用交叉阅片设计，交叉设计中可根据相关领域记忆曲线的研究设置合理的洗脱期。若采用多阅片者，最好每位阅片者按照不同的数据样本顺序进行评阅，有文献报道典型的洗脱期一般为4~6周。是否采用交叉设计可根据申报产品的临床应用方法、场景及适用范围等综合判定。