您当前的位置:检测资讯 > 法规标准

超声影像人工智能诊断软件技术审评指导原则(附全文)

嘉峪检测网        2022-12-19 20:24

广东省药品监督管理局审评认证中心发布《超声影像人工智能诊断软件技术审评指导原则》,全文如下:

 

超声影像人工智能诊断软件技术审评指导原则
 
本指导原则是人工智能医学信息系统软件审评指导体系构建的组成部分,基于人工智能医疗器械审评指导原则的通用要求,细化了超声影像人工智能诊断软件的一般要求。
 
本指导原则是供超声影像人工智能诊断软件的研发、生产和技术审评使用的指导性文件,不涉及相关行政审批事项,亦不作为法规强制执行,应在遵循相关法规的前提下使用本指导原则。
 
本指导原则是在现行法规和标准体系以及当前认知水平下制定的,随着法规和标准的不断完善,以及科学技术的 不断发展,在使用过程中应对相关内容适时进行调整。
 
一、适用范围
 
本指导原则适用于超声影像人工智能诊断软件的技术审评。该类产品通常作为软件组件集成在影像型超声诊断设备中。若作为独立软件运行通用计算机平台,可以参考本指导原则的要求。
该类产品的核心功能是采用深度学习等人工智能算法对超声影像数据进行处理、测量、分析等,包括非辅助决策类功能和辅助决策类功能,前者如生理结构自动识别及生理参数自动测量等,后者如病灶特征识别、病灶性质判定等。
 
二、技术审评要点
 
(一)监管信息
 
1.软件组件
超声影像人工智能诊断软件集成于超声诊断设备中时,产品名称、分类编码、型号规格、结构组成与所集成产品保持一致。产品技术要求中应体现基于人工智能算法的软件功能的相关信息。若有辅助决策类软件功能,结构组成(若适用)和适用范围应予以体现。
 
2.独立软件
产品名称应符合通用名称命名规范要求。通常体现超声检查项目(如产前超声、乳腺超声)、预期用途(如影像处理、乳腺结节辅助检测)等特征词。例如:产前超声影像处理软件、乳腺结节超声影像辅助检测软件等。
依据《医疗器械分类目录》,分类编码为21-04-02。
型号规格应给出产品的型号和软件发布版本。
结构组成应明确软件交付方式(如光盘/U盘安装、网络下载),结合网络部署情况给出软件功能模块,应体现出应用人工智能算法的所有模块。
适用范围需明确处理对象、核心功能、适用人群、目标用户、临床用途。例如,可供适龄女性乳腺肿瘤筛查及体检人群使用,供经培训合格的超声科、妇科医生或技师使用。
 
(二)综述资料
 
1. 产品描述
基于人工智能算法的功能,应重点描述以下内容:
详述工作原理,明确具体的功能模块(如胎儿切面自动识别功能)、使用的超声硬件(包括超声诊断设备及探头)要求、以及成像模式(如B模式)。
明确临床工作流程,工作流程中使用申报产品的时间(如在超声医师检查过程中使用,或在检查结束后使用)。
基于参考文献及已上市同类产品说明该功能当前的临床实践,包括传统算法及人工智能算法的应用。
详细介绍产品技术要求及说明书中对应的临床功能、量化分析(如自动测量)的具体内容、操作设置、运行界面和报告界面的细节。明确算法自动生成的信息、输出结果以及哪些可以修改。说明功能模块失效时对超声诊断的影响等信息。
 
2. 适用范围和禁忌证
基于人工智能算法的功能,应重点描述以下内容:
需详述产品的适用人群、感兴趣区域、以及预期使用该产品的目标用户。
需明确产品临床应用的禁忌证以及器械使用限制,包括导致器械无效且不应使用的疾病、病症、异常。
 
(三)非临床资料
 
1.产品技术要求
 
1.1规格信息
明确软件发布版本和版本命名规则。软件版本命名规则原则上需涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。
 
1.2性能指标
基于人工智能算法实现的功能模块,性能指标应注意以下内容:
软件功能明确所有临床功能纲要。例如,支持神经自动识别功能(需明确必要的信息,如支持的探头、可自动识别的神经、识别后的表现如目标增强等);乳腺结节检出、BI-RADS分类结果、乳腺结节测量功能(如体积、面积、前后径、上下径、横径、相位、距离等);胎儿标准切面自动识别(需明确具体切面)及参数测量等。
使用限制明确应用场景(如筛查、辅助诊断等)、患者情况(如年龄、生理结构或疾病类型、可检查的器官/疾病/病灶/异常限制)、超声诊断设备及探头、成像模式、超声影像质量要求(如乳腺扫查时的灰度对比、深度及穿透力适当的要求等)。
接口明确输入数据模式/类型(如灰度图、三维容积图)、特定软硬件名称和型号(如适用)。
若含有基于测评数据库测试的性能指标,可参考《人工智能医疗器械注册审查指导原则》。
 
1.3附录
附录中明确测评数据库信息。
 
2.软件研究
 
(1)基本要求
软件研究相关资料包括软件研究资料、网络安全研究资料、算法研究资料三部分。
依据已发布的《医疗器械软件注册审查指导原则》、《医疗器械网络安全注册审查指导原则》、《移动医疗器械注册技术审查指导原则》、《人工智能医疗器械注册审查指导原则》等指导原则提交相关资料。网络安全方面还可参考《人工智能医学软件产品网络安全技术审评指导原则》的有关内容。
测量功能提供测量准确性的研究资料。数据资源(如参考数据库)明确数据种类以及每类数据的样本量、数据分布等情况。
 
(2)软件安全级别
该类产品的软件安全性级别为中等(B)级及以上。
 
3.算法研究资料
应基于《人工智能医疗器械审查指导原则》提交算法研究资料。根据超声影像人工智能产品的特点需要细化之处如下。
 
3.1算法基本信息
 
(1)输入应明确检查的器官/疾病/病灶/异常及应用(如心脏结构自动识别)、扫查条件、成像模式、临床使用限制、超声诊断设备及探头的型号、软件运行环境,输出应明确算法的输出和自动生成的诊断结论;
 
(2)如具有通过检测操作者扫查手法来引导标准切面的获取算法,应明确扫查手法标准、标准切面判定标准。
 
3.2算法需求规范
产品设计应充分考虑国内和国际公认的相关领域的超声诊疗指南,跟踪最新版本,如美国放射学会推荐的“乳腺超声影像报告和数据系统(BI-RADS)”等。
明确产品的使用场景、操作者、适用人群,如允许操作者为非超声医师(如技术员、护士),应重点描述。
明确超声图像质量控制的方式。
明确算法训练数据集要求,明确预期采集各分型/分期/分级样本、阴性样本、各特征样本的数量和分布要求,明确采集的超声诊断设备及探头信息、扫查部位、成像模式、图像分辨率/探测深度等、以及人群分布(性别、年龄、地域、基础疾病等)、医院级别、 医院数量等要求。根据产品的预期用途和使用场景尽可能多采集数据,例如来源于多家、多地域、多层级的代表性临床机构,以及多家、多种、多参数的代表性采集设备(如适用)。
用于疾病/病灶/异常检测的人工智能算法,应结合流行病学特征纳入一定量阳性样本。用于正常生理结构识别的人工智能算法,应明确保证样本多样性的方法以及异常样本的排除情况。
受超声系统硬件(探头、数模芯片、处理器性能等)、成像参数(信号采集滤波、波束合成、重建方法、增益补偿、图像调试等)设置、系统平台参数等因素的影响,不同厂家的超声系统平台的图像在风格、颗粒度等方面往往存在较大差异。因此,难以做到一个模型兼容所有厂家超声系统平台的数据进行部署。如果采用多种超声系统平台的数据,需明确数据分布,对样本的组成、比例、分群分布特征、数据的多样性和接近应用场景的程度开展分析,并以书面形式提供可验证的指标,以确定数据的代表性。
明确算法性能评价目标。如标准切面识别指标的准确性、实时性等,测量指标的准确性、重复性等,病灶检出指标的召回率、精确度等。需提供文献综述论证评价指标的定义、计算公式及确定依据。应能够满足预期临床使用需求。
 
3.3数据质控
建议参考《人工智能医疗器械注册审查指导原则》及YY/T 1833.2《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》。同时注意以下方面的内容。
 
(1)数据采集
详述采集过程的采集设备(含超声诊断设备及探头)、采集特征、采集人员管理、采集流程、采集质量评估要求、数据脱敏要求。其中采集特征应当考虑采集设备的采集方式(如静态/动态影像、成像模式)、采集参数(如超声探头频率、探头阵元数、侧向和轴向分辨率、深度、图像放大倍率等要求)。采集人员管理详述采集人员数量、资质、培训方式和考核方式等。采集流程详述入排标准、扫查手法、留图要求等。若使用历史数据,至少应明确采集设备、采集参数、图像质量的要求等。
 
2)数据整理
采集的图像数据不应包含患者隐私信息,需说明数据脱敏的技术手段。
数据预处理需明确数据转移保存的方法。明确预处理的操作步骤和内容,如数据格式转化、尺寸裁剪、归一化、去除无用信息等。原始数据库的预处理过程若与算法运行的预处理过程存在差异,应加以说明并纳入风险分析。
明确数据清洗的方法(如:人工、自动或两者结合)、工具(如有)、规则等,例如是否已完成数据脱敏、是否满足图像唯一性、图像标识或图像内容是否与检查部位相关、常规切面是否遗漏、动态图像是否连续、探头工作频率和探头深度是否满足要求、图像质量是否满足要求等并加以筛选。清洗结果明确弃用的数据量和原因。
 
(3)数据标注
数据标注建议参考YY/T 1833.3《人工智能医疗器械质量要求和评价 第3部分:数据标注通用要求》。 
建议列表给出标注、审核、仲裁人员的基本信息,如科室/专业、职称、工作年限、所在机构、培训考核情况、工作量。明确标注对象(如超声静态或动态图像中某解剖结构区域、某病灶及其位置等)、标注形式(根据任务的不同可有不同的标注形式,如切面类型标注、病灶位置标注、病灶性质标注等)、标注工具及平台、标注环境、标注规则等。
标注工具及平台应支持超声数据格式或其转化后数据格式的显示功能,如DICOM格式数据、视频格式数据、图片格式数据、文本格式数据等。如标注工具、标注平台使用人工智能算法进行辅助标注,需提交标注工具、标注平台算法性能研究资料。
标注规则需明确参考依据,如指南、专家共识等。
明确标注过程的分歧处理方法、控制偏倚方法、标注质量评估方法、以及追溯方法等,辅以流程图说明标注流程。
 
(4)数据集构建
对于标注前的基础数据库,标注后划分的训练集、调优集、测试集,应给出样本量和分布情况及其确定依据,以及集合划分的方法、依据。训练集原则上需保证样本分布具有均衡性,测试集、调优集原则上需保证样本分布符合真实情况。为确保测试结果的合理性,在划分数据集时,还应确保训练集、调优集、测试集所采样的病例两两无交集。样本分布应主要考虑超声诊断设备及探头种类/型号、成像模式、扫查参数、扫查部位/切面、疾病/病灶/异常分级/分期/分型等,以及人群分布(性别、年龄、地域、基础疾病等)、来源医院等因素。
数据扩增应符合《人工智能医疗器械注册审查指导原则》的要求。 
 
3.4算法验证与确认
 
(1)算法性能评估
应根据功能模块的具体任务制定算法性能评估指标、目标值,提供制定依据并论述其合理性。例如,图像分割任务可采用DICE系数、mIOU等指标来评价;图像分类任务可采用准确率、灵敏度、特异性、ROC曲线等指标来评价;目标检测任务可以采用mAP等进行评价。以乳腺结节BI-RADS特征分类为例,通常临床上认为当BI-RADS分类<3时,可不进行临床干预,当BI-RADS分类≥3则需要进行临床干预。那么,除使用灵敏度、特异性等对算法在各特征上的整体性能进行评价外,从临床实际意义出发,分层级对各特征性能进行统计分析就显得尤为必要。同时,还应考虑算法的重复性和鲁棒性。
明确测试样本量估计的公式、参数及制定依据。基于测试集提供算法性能评估结果,以证明算法性能满足设计目标。
若有扫查手法检测模块,应选择合适的评价指标验证其算法性能。
 
(2)算法性能影响因素分析
应进行算法性能影响因素分析。详述影响算法性能的主要因素及其影响程度,基于分析结果明确产品使用限制和必要警示提示信息。
主要性能影响因素包括但不限于超声诊断设备及探头、成像模式、超声影像质量要求(如乳腺扫查时的灰度对比、深度及穿透力适当的要求等)、患者情况(如年龄、生理结构或疾病类型、可检查的器官/疾病/病灶/异常限制)等,应论述其合理性。
 
(3)算法确认
人工智能算法功能模块可在多个不同平台/超声诊断系统(含探头)运行的,应论述算法确认所用平台/超声诊断系统(含探头)的代表性。明确相关安全性、有效性、实时性评价指标,如标准切面识别的准确性、图像增强效果的有效性、实时性等。明确样本量及估算依据。
目前尚无超声相关测评数据库,原则上应基于临床评价方式进行算法确认。
 
4.用户培训方案
用户培训需要重点说明的内容: 
对于软件安全性级别为严重级别或在基层医疗机构使用/非超声医生使用的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。
用户培训需关注以下内容:预期用户要求,如工作年限或执业资格;医生必须对软件结果进行确认,软件只用于辅助检测,不能替代医生;明确图像质量要求(如有扫描质量问题的超声图像慎用);禁忌情况,如基于临床试验验证,不宜使用该软件的疾病。
 
(四)临床评价
临床评价应基于核心功能或核心算法,结合产品的预期用途和成熟度予以综合考虑。
针对成像和后处理的非辅助决策类软件功能,如心脏标准切面识别,原则上可基于核心功能进行同品种医疗器械比对,并开展一定数量的人体图像样本研究(区别于训练集、调优集、测试集的样本数据)。但全新的功能、算法、用途原则上需基于临床试验数据开展临床评价。
辅助决策类软件功能,如乳腺结节良恶性判断,应基于核心算法进行同品种医疗器械比对,所选同品种医疗器械的临床证据原则上需基于临床试验。全新的功能、算法、用途原则上均需开展临床试验。临床试验一般选择同品种产品或临床金标准进行非劣效对照设计,非劣效界值的确定应当有充分的临床依据。原则上选择灵敏度、特异性、ROC/AUC作为主要评价指标,亦可在此基础上根据软件特点选择敏感性/特异性衍生指标、ROC/AUC衍生指标、组内相关系数、Kappa系数、时间效率等指标作为次要评价指标。临床试验的机构应避免训练数据的主要来源机构。
 
(五)产品说明书
说明书应符合《医疗器械说明书和标签管理规定》和《医疗器械软件注册技术审查指导原则》、《医疗器械网络安全技术审查指导原则》、《人工智能医疗器械注册审查指导原则》和相关标准的规定。
说明书内容需重点提醒的内容:
 
1.用户说明
对预期用户和推荐用户培训的详细说明。如,预期用户工作年限或执业资格要求,且需经培训合格。
 
2.使用限制
若产品采用人工智能黑盒算法,需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。
示例:不应仅仅依靠本软件所标识的输出,应由专业医师对结果进行解释。
已发现该器械对于XX的受检者无效。具有这种疾病/病症/异常的受检者不应使用该器械。
对训练数据、测试数据与临床试验的算法性能评估结果不佳,数据量偏少的,此类受检者使用该器械,应由专业医师结合受检者的病史、症状、体征、其他检查结果情况综合给出最终的检查结论,核实是否需要进行下一步诊疗的决策,并对临床诊断结果负责。
 
3.注意事项
明确图像质量要求(如有不符合要求的超声图像慎用);
医生必须对软件结果进行确认,软件只用于辅助检测/诊断,不能替代医生。原始的软件结果应保留,确保软件结果的可追溯性与可责性。
 
4.预防措施
需明确与器械使用相关的不良事件,并提供缓解措施建议。对辅助决策类,不良事件讨论需至少包括对假阳性事件和假阴性事件的不良事件的讨论。
 
5.器械描述
需提供以下内容:
-算法设计和功能的概述,如有特殊声明,如用于继发性结节或更小结节检测,可以特别说明。
-研发和调整算法中所用的受检者数据的参考标准的描述
-与本器械兼容的采集技术
-适当显示器械标记的要求
 
6.软件
需明确软件发布版本、运行环境(含硬件配置、外部软件环境、网络环境,若适用)、安全软件兼容性列表(若适用)、外部软件环境与安全软件更新(若适用)、现成软件清单(SBOM,若适用)等要求。
 
7.产品接口和联合使用设备
需明确对配合使用的图像工作站(如PACS)适当显示器械标记的要求(如适用)。
若该软件部署于超声设备外接计算介质内,需明确与其兼容的超声设备厂家、设备型号、探头型号等。
 
8. 辅助决策类产品的算法训练总结
训练集基本信息、训练指标与结果
 
9. 辅助决策类产品的算法性能评估总结
-算法输入与输出
-测试集基本信息
-用于确定器械标记的每个区域的性质的评分标准
-每个可用器械操作点的总体敏感度和假阳性率指标
-分层分析(如,根据病变大小、病变类型、采集参数、成像或数据特征)
-独立FROC性能(如适用),需和操作特性曲线一起说明。
-测试结果
 
10.临床试验总结(如有)
需包括临床试验设计基本类型、研究对象(受试者及阅片者情况)、评价指标,金标准、对收集临床信息方法的描述、统计方法描述、样本量,临床试验结果。
 
11.公开数据库及测试结果(如有)
 
12.第三方测评数据库及测试结果(如有)
 
13.决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等信息。(如有)
 
(六)质量管理体系
除了符合质量管理体系法规及相关规范要求外,还可关注《人工智能医学软件产品现场检查指导原则》的相关要求。
 
三、编写单位
 
广东省药品监督管理局审评认证中心、深圳迈瑞生物医疗电子股份有限公司、深圳开立生物医疗科技股份有限公司。
 
四、参考文献
[1]医疗器械注册与备案管理办法[Z].
[2]医疗器械说明书和标签管理规定[Z].
[3]医疗器械注册申报资料要求和批准证明文件格式[Z].
[4]医疗器械通用名称命名指导原则[Z].
[5]医疗器械安全和性能基本原则[Z].
[6] 医疗器械产品技术要求编写指导原则[Z].
[7]医疗器械软件注册审查指导原则(2022年修订版) [Z].
[8]医疗器械网络安全注册审查指导原则(2022年修订版) [Z].
[9]人工智能医疗器械注册审查指导原则[Z].
[10]人工智能类医用软件产品分类界定指导原则[Z].
[11] YY/T 0316,医疗器械 风险管理对医疗器械的应用[S].
[12] YY/T 1833.1,人工智能医疗器械 质量要求和评价 第1部分:术语[S].
[13] YY/T 1833.2,人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求[S].
[14] YY/T 1833.3,人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求[S].
[15] T/AII 004,面向人工智能的乳腺超声数据采集与标注技术规程[S].
 

 
分享到:

来源:广东省药品监督管理局审