深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑_检测资讯

深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑

嘉峪检测网 2021-09-10 21:15

摘要 / Abstract

深度学习辅助医疗产品确证性临床试验的主要评价目标是辅助临床医疗的诊断准确性和安全性，多阅片者多病例（MRMC）的研究设计是评价或比较不同辅助医疗产品软件诊断性能的一种方法，可有效地避免或减少临床评价过程中因读片医生经验或资历水平等不同以及使用场景等各种差异而产生的偏倚，从而更加客观的评价试验结果。本文基于 MRMC 设计的特点，探讨了深度学习辅助医疗产品的临床试验设计和方法学思考要点，如对选择对照、目标疾病诊断金标准、临床试验类型和评价指标的考虑；对检验假设建立、病例和阅片者样本量、病例和阅片者的代表性、阅片过程随机化及对阅片者培训等的考虑；对临床试验过程中可能产生的各种偏倚的考虑。同时，提出了目前仍面临的问题和难点。建议申办方多与方法学专家和监管部门沟通，以期为临床试验科学、完善、合理的设计和执行提供参考。

The main objective of deep learning-assisted confirmatory clinical trials is to evaluate the accuracy and safety of clinical diagnostic products. The multi-reader multi-case (MRMC) research design is a method to evaluate or compare the diagnostic performance of different medical device software, which can effectively avoid or reduce bias in the clinical evaluation process due to differences in the experience or qualification of film readers and different scenario of application and can deliver more objective study results. Based on the characteristics of MRMC design, this paper discusses key considerations of clinical trial design and methodology of deep learning-assisted medical products, including the selection of control, the gold standard of target disease diagnosis, the type of clinical trial and evaluation index, the establishment of test hypothesis, the sample size of cases and readers, the representativeness of cases and readers, the randomization of film reading process, the training for film readers, and consideration of bias in the studies. At the same time, current problems and difficulties are put forward. It is suggested that sponsors communicate with methodology experts and regulators more frequently to facilitate more scientific study design and conduct studies more effectively.

关键词 / Key words

深度学习；人工智能；辅助医疗；多阅片者多病例；确证性临床试验

deep learning; artificial intelligence; deep learning-assisted medical device software; multi-reader multi-case; confirmatory clinical trials

以深度学习（deep learning）为核心的人工智能（artificial intelligence，AI）技术的兴起给计算机图像识别、自然语言处理和语音识别等领域带来了巨大的技术突破，这些技术突破也逐渐从通用算法研发拓展到了医疗、遥控、自动驾驶等各领域学科场景中 [1]。以临床医疗为例，如通过引进 AI 深度学习技术在内的各种自动化工具；各领域深度学习研发辅助决策医疗器械软件；基于大量的医疗数据信息和各种算法，为医务人员提供诊疗活动建议以辅助进行临床决策（如临床的辅助筛查、辅助诊断、辅助治疗和辅助结局预测）等。

近年来，AI 在我国辅助治疗、医学影像处理等医疗器械领域的应用愈发广泛，为提高诊断率和治疗有效性做出了重大贡献，已成为医疗器械行业的热点和焦点。目前，使用传统 AI 技术的医疗器械已有多款产品注册上市（如乳腺肿瘤、肺结节、结肠息肉等辅助识别软件），而使用深度学习等新一代 AI 技术的医疗器械仍处于研发、检测、临床试验阶段。从批准上市前对深度学习辅助医疗器械软件确认的临床试验角度出发，考虑到软件的真实使用场景和使用对象的差异性，国家药品监督管理局医疗器械技术审评中心建议临床试验采用多阅片者多病例（multi-reader multi-case， MRMC）研究设计 [2]。MRMC研究设计是 FDA 推荐的，用于比较 2 种或多种影像诊断软件诊断性能的常用方法，可有效避免临床评价过程中因读片医生、使用场景等各种差异而产生的读片偏倚，从而更加客观的评价试验结果 [3]。但由于 MRMC 研究设计常需要阅片者分别在不同的阅片模式下（如单独阅片和 AI 辅助阅片）对所有入选病例交叉读片，阅片结果可能存在病例与阅片者之间的多重相关问题，也可能存在试验结果和阅片者间潜在的交互作用。这对于 MRMC 设计的临床试验来说不管是研究设计、实施还是最终统计分析都比常规设计的临床试验更加专业和复杂，尤其是样本量计算及对相关参数的合理假设。据此本文从临床研究方法学角度对 MRMC 研究设计的相关设计要点进行简要介绍，以期为开展深度学习辅助医疗器械软件确认临床试验提供支持和参考。

01、研究设计方法

AI 辅助医疗器械确证临床试验的目的旨在评价目标设备在预期使用人群和计划使用场景中对目标疾病筛查、诊断或预测等临床评估的安全性和有效性。采用 MRMC 研究设计的临床试验设计分类基本分为以下 3 种 [4]。

①配对阅片者配对病例设计：全交叉设计全部阅片者对每一种阅片模式下所有病例的影像数据给出阅片结果。②非配对阅片者配对病例设计：所有病例均提供所有阅片模式下的影像数据，部分阅片者只针对某一种阅片模式下的影像数据给出阅片结果，其余阅片者对另一种阅片模式下的影像数据给出阅片结果。③配对阅片者非配对病例设计：部分病例提供某一种阅片模式下的影像数据，其余病例提供另一种阅片模式下的影像数据，全部阅片者均对所有病例的影像数据给出阅片结果。其中，应用最多最常见的是①全交叉配对设计，这种设计需要的样本量相比②③非配对设计少。如果在某个前瞻性研究中，无法同时获取多名临床医生对同一患者影像数据的阅片结果或者同一患者无法同时提供所有不同阅片模式下的影像数据时，也可以采用非完全交叉的研究设计方法。

02、评价指标和研究假设

MRMC 与新药和医疗器械确证性临床试验的设计思路一致，主要和次要评价指标的选择取决于目标产品的预期用途，并且评价指标应该在研究设计阶段方案中进行明确的定义。

2.1 评价指标

MRMC 研究设计常应用于影像诊断产品的临床评价，如 AI 辅助临床医生对于肺结节的检出 [5] 或者对于乳腺癌的筛查诊断 [6]，采用 MRMC 研究设计的 AI 辅助医疗器械确证临床试验的评价指标多为诊断试验研究的相关评价指标。从诊断产品的性能角度考虑，受试者工作特征曲线（receiver operating characteristic curve， ROC）曲线下面积（area under curve，AUC）可以综合所有可能诊断界值（cut-off value）下的灵敏度（sensitivity）和特异度（specificity），从整体水平评价及比较不同诊断产品或不同阅片模式下的诊断效能，通常是被优先考虑的一个主要指标。另一方面，从临床实践的角度考虑，针对有实际临床意义或影响临床操作的诊断界值，也建议给出此诊断界值的灵敏度和特异度，以结合临床实际评价新辅助诊断产品或者影像诊断模式对疾病或患者诊断的实际获益或风险，通常也会将特定诊断界值下的灵敏度和特异度作为另外一个主要指标，或者也可以退而求其次将其定义为次要评价指标。但需要注意的是，此处的诊断界值应该是对应有明确临床意义的界值，而不是仅通过分析 ROC 曲线的统计方法得到的界值。目前，AI 辅助医疗器械除应用在病例水平检测外，也有一部分是具体到病变水平（如结节、冠状动脉部位）给出相应的结果，所以除对病例水平的 ROC 分析外，专门针对病变水平的无反应 ROC 曲线下面积（free-response ROC area under curve,FROCAUC）及在此基础上做出改进的可替代无反应 ROC 曲线下面积（alternative free-response ROC area under curve， AFROC-AUC）也常作为评价指标 [7-9]。

2.2 假设检验

临床试验评价深度学习辅助决策医疗器械软件的设计多样，通常情况下建议选择同期可比的对照进行比较研究，如可以选择同类仪器或软件或临床参考标准进行非劣效比较设计，也可以选择替代方法，如 AI 辅助医生联合阅片与医生单独阅片比较进行优效比较设计 [2]。统计学假设检验类型的选择需要结合目标产品的临床预期、试验的主要目的和选择的参考对照综合考虑，但总体来说假设检验基本类型与临床研究的常见研究假设一致，可以分为非劣效性试验（noninferiority trial）、等效性试验（equivalencetrial）和优效性试验（superiority trial）[10]。几种假设检验的具体表述形式见表 1。

深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑

申办者在计划开展试验时需要结合产品实际情况选择合理的设计类型。国家药品监督管理局医疗器械技术审评中心也建议优先选择同品种产品或临床参考标准进行非劣效对照设计，若无同品种产品且难以获取临床参考标准可选择替代方法，如选择用户结合软件联合决策与用户单独决策进行优效对照设计 [2]。但是无论是哪种设计，非劣效或优效试验对界值的确定应当有充分的临床依据。

03、目标疾病诊断金标准

对于 MRMC 设计的临床试验来说，必须明确针对研究对象目标疾病状态的诊断金标准。所谓“ 金标准 ”（gold standard）就是目前医学界公认的、诊断某一疾病的最佳方法，如病理检查、随访诊断或其他检查手段的检查结果等。对于深度学习辅助决策医疗器械软件或影像诊断等临床试验来说，会存在目标疾病暂时并未有明确的诊断金标准或标准诊断方法，针对这种情况基于多名临床专家共同读片的诊断结果也可以作为最终评价的金标准。

如果采用多名临床或影像专家共同读片的诊断结果作为金标准，建议在研究方案中对以下内容进行明确：①专家的数量。② 专家的专业、资质、知识水平、职称或资历。③在读片过程中为帮助专家给出相对准确的诊断结果而提供给专家的关于研究对象的具体信息（如年龄、性别和其他检查结果等）。④临床专家对于目标疾病定义为阳性或者阴性的明确的判定方法和标准等。需要注意的是，参与目标疾病金标准诊断结果的临床或影像专家与目标产品试验评价过程中的阅片医生必须是完全独立的。

04、病例和阅片者数量

如前所述，在 MRMC 设计的临床试验中，数据变异的来源除入组病例间的变异外，阅片者间的变异性也是一个主要的影响因素。在临床试验设计阶段尤其是样本量估算时，需要综合考虑病例间的变异和阅片者间的变异，分别估计病例和阅片者两部分的样本数量。同时，在相同的检验假设条件下采用多数量的阅片者也可以在一定程度上减少所需的病例数量。

由于 MRMC 设计的临床研究样本量计算推导过程相对比较复杂且偏数学推导，后续本研究组将专门针对样本量的计算进行阐述，在此不再做详细介绍。但需要明确的是，在临床试验设计时需结合临床研究的主要目的，即从统计学角度同时考虑估计纳入病例和阅片医生两部分的样本量。

05、数据收集和报告

MRMC 设计的临床试验中统计评价指标主要是基于 ROC 曲线计算得到的 AUC，以及相关的衍生指标（如 FROC-AUC、 AFROC-AUC），也可以是特定诊断界值下的灵敏度、特异度一类二分类指标。所以，针对这类设计的研究，以 AI+ 临床医生评判和临床医生独立评判为例，需要收集的数据信息除病例和阅片者的基本信息外，与有效性评价相关的指标主要为病例水平的金标准诊断结果（如阳性 / 阴性或病例 / 非病例格式的二分类数据）、临床医生独立阅片的诊断结果和 AI 辅助下临床医生独立阅片的诊断结果。其中，与 MRMC ROC 分析相对应，临床医生独立阅片的评判结果和 AI 辅助下临床医生独立阅片的评判结果常常是相对细化的置信度评分，如乳腺影像报告和数据系统（breast imaging reporting and data system，BIRADS）分级形式，即 1~7 级的等级计数形式或百分计数形式，反映了临床医生对于判定阳性结果的把握程度，评分越高表示诊断为阳性病例的可能性越大。通常在有些临床试验中除细化的置信度评分外，临床医生也可根据临床实际给出一个二分类的结果，用于灵敏度和特异度等指标的计算。

FDA 给出了《关于诊断类产品评价的统计结果报告指南》（Statistical Guidance on Reporting Results from Studies Evaluating Diagnos Tests）[11]，可以为 AI 辅助诊断临床试验的统计结果报告提供标准。针对MRMC设计的临床试验，参考该指南建议汇报总体的诊断效能情况、每位阅片医生的诊断准确性，以及考虑阅片者、病例等各种变异下的置信区间等结果。

06、MRMC设计在临床试验研究中的偏倚及控制

临床试验的主要目的是尽量无偏倚的评价诊断产品的准确度或 2 种或 2 种以上不同诊断产品或诊断模式之间的准确度差异 [12]。但临床试验实际操作过程中难免会引入一些偏倚从而影响试验结果的准确评价，在采用 MRMC 设计的诊断试验准确度评价研究中最常见的几种偏倚如下。

（1）选择偏倚：入选样本受额外因素的影响无法代表目标总体而引起的偏倚。对 MRMC 设计的临床研究入选样本应包括入组病例和入组阅片医生两部分。入组病例应包括全面的疾病特征和信息（如不同分型、不同严重程度等），入组阅片医生也应当依据目标产品的预期使用环境和使用对象选择与之相匹配的阅片医生（如职称、资历、阅片经验等），以保证研究人群的代表性。

（2）证实偏倚：阳性（或阴性）试验结果的患者会有更多的机会接受金标准的验证，这样当仅以接受金标准验证的患者进行诊断能力的评估时就会产生证实偏倚，尤其是在回顾性收集资料的研究设计中，更应该注意尽量减少这类偏倚，且前瞻性设计的研究也建议尽可能让全部入组病例均能接受金标准的验证。

（3）阅片顺序偏倚：在比较 2 种或 2 种以上不同诊断产品或诊断模式之间的诊断能力时，阅片医生需要分别在不同模式下进行阅片，后一种阅片模式下阅片医生的判读可能会受到记忆中前一阅片模式下的信息干预而影响结果。阅片过程的随机化操作可有效减少这类偏倚，可以随机分配阅片医生的阅片顺序，也可以随机分配入组受试者接受时的阅片顺序。另外，对于不同诊断产品或诊断模式间的读片间隔，建议设定至少 4 周的洗脱期，因为洗脱期间隔越长读片过程中的记忆偏倚相对越小 [3]。另外，为避免阅片医生间由于不同的阅片习惯和评判标准所带来的阅片过程和评判结果的偏倚，研究开始前需要对阅片者进行统一的培训，包括阅片环境、阅片方法和评判结果的标准化定义等，同时建议在方案中明确定义整个阅片流程、阅片操作的规范化和评判结果的标准化。

07、结论

在深度学习辅助医疗器械软件确认的临床试验中，采用 MRMC 的设计方法可以有效地控制由于阅片医生年资、水平和经验等不同和器械软件使用场景和目的的不同所带来的结果评价的偏倚，同时采用多阅片者研究可以在一定程度上减少需要的入组病例数，提高试验的把握度。但是，由于 MRMC 的设计引入了阅片者的因素，使得临床试验的研究设计和统计分析变得相对更加复杂，建议申办方在开展类似的临床试验时多与方法学专家和相关监管部门沟通，合理设计试验流程和操作、减少试验中的偏倚，更加客观和准确地评价临床试验的效果。

引用本文

尚美霞,阎小妍,姚晨*,李雪迎,朱赛楠.深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑[J].中国食品药品监管,2021(7):100-105.

深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑

第一作者简介

尚美霞，硕士研究生，北京大学第一医院医学统计室，主管技师。专业方向：临床研究统计设计与分析

通讯作者简介

姚晨，教授，卫生统计学硕士，临床研究方法学博士生导师，北京大学第一医院医学统计室主任，北京大学临床研究所副所长。专业方向：临床研究统计设计与分析

来源：中国食品药品监管杂志

深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑

相关新闻：