您当前的位置:检测资讯 > 法规标准

《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》要点解读及思考

嘉峪检测网        2021-12-19 21:07

摘要 | Abstract

 

近些年来,利用行政管理和临床保健数据库等常规收集的卫生数据开展真实世界比较效果与安全性的研究越来越多地影响药品监管、报销和其他医疗保健决策。电子健康记录(Electronic Health Records, EHR),尤其是电子病历数据中的非结构化数据蕴含大量症状、体征、诊断相关数据,结合高效可行的临床真实世界数据采集模式,将其整理为可供分析的结构化数据,可以更好地利用这些信息开展研究。目前已发表的多个报告规范详细说明了关于如何规范报告使用常规收集卫生数据开展观察性研究。然而,现有报告规范未对电子医疗记录、登记数据或其他医疗保健数据源中所包含的结构化和非结构化信息加以区分。如何更加透明、规范地报告,即将非结构化文本提取,整理成为可以开展比较效果研究和安全性研究分析的结构化字段,对于此类因果推断研究、结果解释有重要意义。鉴于此,哈佛医学院Shirley V. Wang 教授带领的研究团队提出并制定《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》。本文对基于非结构化EHR 开展真实世界比较效果和安全性研究过程中涉及的专业术语和相关技术进行简单归纳,着重介绍现已发表的报告规范中对于非结构化文本处理,如使用自然语言处理或机器学习方法时需重点报告的核心要点,以期为研究人员今后更好地开展和报告此类研究提供参考。

 

Research that makes secondary use of administrative and clinical healthcare databases is increasingly influential for regulatory, reimbursement, and other healthcare decision-making. Electronic health records (EHRs), especially electronic medical records, contain unstructured data that record information on symptoms, signs and diagnoses. With the help of efficient and practical clinical real-world data collection models, unstructured data can be cleaned and put to better use.Several guidance documents have been published to improve transparency, reproducibility of observational studies using routinely collected health data. However, existing guidance does not differentiate between structured and unstructured information contained in EHRs, registries, or other healthcare data sources. More transparent and standardized reporting on the extraction and organization of unstructured text into structured fields that can be used for comparative effectiveness and safety studies is of great significance to such causal inference research and interpretation. To this end, a research team led by Professor Shirley V. Wang of Harvard Medical School proposed and developed the Transparent Reporting on Research Using Unstructured Electronic Health Record Data to Generate Real World Evidence of Comparative Effectiveness and Safety. This paper summarizes the terminology and technologies involved in real-world comparative effectiveness and safety research based on unstructured EHRs, with a focus on the core points for the transparent reporting of unstructured text processing involving use of natural language processing- or machine learning-derived data fields, to provide reference for future research.

 

关键词 | Key words

 

药品监管;电子健康数据;非结构化文本;真实世界研究;报告规范

 

drug administration; electronic health records; unstructured text; real-world study; reporting guidance

 

01利用非结构化文本开展真实世界研究的价值与现状

 

随着信息技术的不断发展和常规收集卫生数据信息电子化不断完善,越来越多的学者或决策者关注并利用包含在电子健康记录(electronic health records,EHR) 如医保数据、注册登记数据和电子病历数据等中丰富的临床信息产生的有关医疗干预安全性、有效性或卫生经济学的真实世界证据(real-world evidence,RWE)[1-3]。注册登记研究或其他医疗数据源中包含的结构化和非结构化信息,特别是医疗电子病历中非结构化数据蕴含大量症状、体征、诊断相关数据,结合高效可行的临床真实世界数据采集模式[4],将其整理为可供分析的结构化数据,从而可以更好地在比较有效性或安全性相关因果推断问题的研究和药物流行病或药物利用研究等领域利用这些信息[5]。美国食品药品监督管理局(Food and Drug Administration,FDA)于2021年9 月发布的RWE 相关的指南草案《真实世界数据:评估电子健康记录和医疗保险数据,以支持药品和生物制品监管决策》中提及多种电子健康数据可作为真实世界研究的重要数据来源,其中也强调了非结构化文本在此类研究中的重要价值[6]。

 

基于真实世界数据(real world data,RWD)在监管领域开展的观察性研究,以及医保支付和其他医疗卫生决策中的重要作用,目前国内外有关学者现已开发和发布多个关于观察性研究的报告规范[7,8] 以及针对既有数据进行研究的具体报告建议[9-13]。这些指导文件旨在提高文章报告的透明度、可重复性以及评估设计和分析决策的有效性、相关性的能力。然而,上述提及的相关指南并未区分EHR 中结构化数据和非结构化文本数据在研究过程中涉及多个环节的算法和研究步骤等方面的差异。

 

为了在研究中可以准确、可靠地对EHR 中的暴露、纳入/排除标准、协变量和结局进行分类和识别, 越来越多的研究专注于开发和利用自然语言处理(natural language processing,NLP) 和机器学习(machine learning,ML)等技术与方法 [14]。许多学术组织、卫生系统和商业组织利用基于NLP 和ML 方法衍生的数据支持基于EHR 的研究和临床实践。目前,NLP 和自由文本分析方法已被用于多种任务,包括提取临床概念如吸烟状况和其他风险因素[15-17]、药物差异的识别[18-20]、检测自发报告系统中潜在的药物效应[20-24] 以及药物-疾病[25] 关系的评估。

 

目前,国际上有多个药品上市后评价的大型分布式数据网络[26],如PCORnet [27] 和FDA 哨点行动[28-29]。当前,许多学者聚焦开展比较效果和安全性研究,其研究热点为在通用数据模型中补充使用NLP 和ML 方法,即实现从非结构化数据得到可用于分析的表型和临床事件[30-34]。其他分布式数据网络,如欧洲的EU-ADR和AsianDURG(亚洲药物利用研究组),也已在网络上独立实施通用数据模型方案。通过比较上述分布式网络研究结果,发现相关研究结果可能因数据源的差异以及非结构化数据提取信息过程而有所不同[35-37]。

 

02利用NLP 或ML 算法开展药物比较效果和安全性研究的主要任务及注意事项

 

从非结构化的文本信息中挖掘潜在的规律需要识别大量专业词汇,以及疾病-症状等特定的实体关系。随着NLP 和ML 技术的发展,对这类文本信息进行数据挖掘的主要任务包括:命名实体识别、关系抽取和文本分类。数据科学技术的发展对电子病历数据的分类任务和问答任务也有了一定的突破[38]。

 

2.1 命名实体识别

 

命名实体识别(named entity recognition,NER)也称为概念抽取,即从指定的自由文本中抽取出相关的具有特定意义的词语,其在医学文本研究中被称为生物医学命名实体识别(biomedicalnamed entity recognition,BioNER)。电子病历命名实体识别是BioNER 的子领域,其主要任务是识别患者的电子病历中具有特定意义的实体,并对其进行标注,这些实体根据研究目的不同而有所区别。通常中文电子病历中的实体类型包括疾病、病因、临床表现、检查方法、药品名称、手术、身体部位等。电子病历被标注实体之后可以提高医生查看病历的工作效率。同时,标注的结果也将辅助后续的如关系抽取和知识图谱构建等研究。

 

2.2 关系抽取

 

关系抽取(relation extraction,RE)通常基于命名实体识别的结果之上,也是NLP 中一个重要的子任务,但是由于深度学习的发展,也有不少深度神经网络将命名实体识别和实体关系抽取看作一个完整的任务。理论上,关系抽取任务分为2步,首先判断一个实体对是否存在关系,若有关系,则进一步判断关系类型。在实际模型设计中,通常把无关系当作一种特殊的关系,并直接将关系抽取看作是多类别分类任务。关系抽取是医疗健康知识库建立维护的基础。在医学领域,不同实体间的关系具有不同的定义标准,根据I2B2 2010 评估会议[39],电子病历中的实体关系可以分为3类,包括疾病之间的关系、疾病与医学检查的关系以及疾病与治疗之间的关系。在医学领域,通常采用基于共生、传统机器学习和深度学习方法进行关系抽取。

 

时序性是电子病历数据的一大特点,因为电子病历通常不仅包括患者当前的治疗状况和指标,还包括患者过去所经历的临床事件。为了自动构建这些事件之间的时间线,就需要抽取临床记录中事件和时间的关系。

 

2.3 文本分类

 

文本分类是文档级的NLP 任务,目标是为文档标记预定义的文档级标签。电子病历中的医学报告是一种具有丰富信息的资源,特别是其中主要用自然语言描述的自由文本部分。这部分文本包括医生的临床推理信息及思维过程,并能通过病人情况的详细信息帮助医生解决不同的临床问题,而且其通常不能被其他结构化数据所代替。文档分类有助于处理和提取这类数据,辅助后续的分类预测任务,并提高叙述性临床笔记的利用效率,因此文档分类也成为了临床预测分析的一个重要研究领域。

 

2.4 注意事项

 

使用NLP 或ML 算法在不同数据系统、时间和基于不同目的进行表型或临床事件提取时有几个重要的注意事项。首先,在不同的医疗机构中,临床文档记录和术语可能有所不同。当临床记录过程和术语不同时,使用某一个电子病历系统中上下文信息构建的高性能NLP 和ML 算法可能不适用于其他系统。第二,虽然NLP 和ML 技术方法在测量暴露、排除标准、协变量和结局时是非常有用的工具,但进行因果推论时还必须应用其他设计和分析方法。例如,协变量评估时间窗和进入队列后的随访时间对因果推断研究非常重要,但与进入队列相关的时间可能并不是针对开发NLP 或ML 算法用以区分患者、事件或记录这类研究主要考虑的因素。NLP 或ML 建模过程涉及的内容和细节对于推断研究者和政策制定者(例如卫生技术评估、支付和监管人员)评价获取的表型、结局或其他临床事件是否与其关注的问题相关是至关重要的。

 

从电子病历提取和验证信息的一般过程是直接的,通常是从研究的设计和定义建立的参考标准。本文特意使用“参考标准”这个术语,而不是“金标准”或“真实情况”,用以强调由审查员做出的决定并非都是固定不变的而是审查员基于存在固有局限性的电子病历数据记录的临床护理情况(通常指一个已商定的标准,例如一个已发表公开的案例定义)而作出的解释。在列出研究设计和参考标准后,研究人员通常可获取电子病历数据,并创建一个标记的数据语料库(其中参考标准由人工评审员确定),然后再开发和评估NLP 或ML 算法。上述流程虽然简单明了,但所涉及的细节比较详细复杂,且重要的科学细节通常未被公开报道[40]。但事实上,研究人员若能针对这一过程的每一步给予清晰的报告,将有利于审稿人和决策者对NLP 和ML 算法的有效性和相关性进行评价,同时对其结果在不同的研究调查中(例如表型库)重复使用并进行评估。

 

鉴于此,哈佛医学院ShirleyV. Wang 教授带领的研究团队提出并制定《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》[41]。该规范由多位利用基于包含非结构化电子病历文本信息的真实世界研究进行决策的利益相关者共同撰写而成,包括研究学者(药物流行病学家和信息学家)、监管人员、工业和卫生技术评估人员等。为有效传播证据的产生过程,该规范列出应在研究中发表或其他NLP 或ML 算法相关研究公开报告的9 项内容。通过提供关于因果比较有效性和安全性研究中使用非结构化文本数据过程时所需报告的一般性建议,为医疗卫生决策者增加研究的透明度。这些建议旨在用于对现有报告、指南的补充, 如欧洲药物流行病学、药物警戒中心网络、FDA两个专业学会之间的联合工作组编写的报告指南。该规范基于常规收集卫生数据开展观察性研究的RECORD 规范,建立多变量预测模型预测个体预后或诊断的TRIPOD 规范等[9-12]。其具体的建议为希望在今后利用RWD 进行因果推理研究时,为重复使用NLP 或ML 算法产生的数据字段的研究人员和医疗保健决策者提供背景和数据产生过程中的支持细节,使其对产生的暴露测量、纳入/ 排除标准、协变量以及研究问题结局的有效性和相关性具有权威性。

 

03《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告规范》要点解读

 

该报告规范的9 项关于提高研究报告透明度的内容,主要围绕基于RWD 开展真实世界研究过程中所涉及提取信息的质量、相关性和有效性等评价相关的内容展开。针对将非结构化文本数据用于比较效果和安全性研究时所采用的步骤提出报告的一般性建议,其可为医疗保健决策者和因果推断研究者提供可评估的证据,例如为涉及使用NLP 或ML算法衍生的数据字段的因果推断研究提供足够的上下文和支持信息,以便研究人员、审稿人和决策者能够准确地评估暴露的衍生测量、纳入/ 排除标准、协变量和所关注问题结局的有效性和相关性。研究报告的透明度将有益于审稿人对此类研究质量进行评估,但需要强调的是,该推荐关注NLP 或ML 算法相关的研究报告透明度,并不等同于如何更好地开展NLP 或ML 算法研究的方法学要求。

 

3.1 数据

 

3.1.1 描述研究人员所获得的数据特点(包括数据来源和类型)

 

提供研究人员可获得或可用数据类型的信息为研究人员提供研究背景、算法性能和可推广性信息。例如,数据是只基于叙述性报告或是研究人员还利用问题列表、实验室结果、药品采购及发放记录和其他结构化字段信息。

 

EHR 数据在到达评审员之前可能要经过基于NLP 或ML 算法反馈系统的多次转换。当评审员从原始的EHR 中看到可扩展标记语言(extensible markup language,XML)将医疗病历从电子病历记录导出或回顾,并已被光学字符识别软件转换为机器可读的格式的医疗记录报告的扫描图像时其可能会失去了原有的真实性。去身份识别软件也会带来噪音,例如去身份识别软件可以打乱名字,同样可以打乱看似是名字的疾病名称(如克罗恩病、帕金森综合征、桥本甲状腺炎)。

 

3.1.2 描述研究者获得数据在转化前开展的预处理或数据清洗

 

在获得用于研究的EHR 数据后,调查人员可能在开展研究前进行必要的数据转换,为进行数据清理或以其他方式预处理数据。详细描述创建为开展人工审阅或与NLP 或ML 算法兼容的文档语料库制作的步骤,包括所使用的软件及在每一步是否开展有效性真实性的验证等信息,将有助于理解EHR 数据预处理和数据清洗等数据操作过程。

 

3.2 方法

 

3.2.1 提供研究设计的关键细节,以确定研究队列和(或)抽样框架

 

明确研究队列或抽样框架对于理解NLP 或ML 算法表现指标的背景是十分必要的。例如,在开发识别结局的算法时,非常重要的一点为结局事件应发生在随访开始后。另外,对纳入研究的患者选择的方法进行描述十分重要,包括待评估确定研究对象算法的时间框架,以及病历是如何抽样获取的过程。需报告的细节信息已包含在已有的报告指南中,如RECORD [10]、国际药物流行病学学会、国际药物经济学与结果研究学会联合工作组[9] 制定的指南。此外,详细的细节也可使用流程图进行展示[42]。

 

3.2.2 为病历审查人员提供用以确定结局事件或参考标准的条件

 

病历审查人员根据既定的条件指导供审查员使用参考标准的确定,例如患者是否存在某种特定的疾病表型或临床事件。当临床表型或临床事件比较复杂,亦或在电子医疗记录中模糊不清时,制定这些判断条件标准显得更为重要。当审查人员提出不一致的评估结果时,报告判断标准、病历审查人员的培训情况、是否为领域专家或临床专家、以及裁定过程中对参考标准是否被正确测量等信息,在一定程度上提高了研究报告的透明度。明确用于从EHR 文档中确定参考标准的条件对于评估NLP 或ML 算法提取信息的相关性十分重要。

 

发表供病历审查人员使用的参考标准对于提升研究报告透明度具有至关重要的作用。若文章没有明确地报告已定义的参考标准的条件,基于关注问题获得表型的相关性以及重要研究变量(例如暴露、纳除标准、协变量、结局)的错误分类程度有可能被掩盖。例如,研究人员可以使用从自由文本EHR 注释中识别“糖尿病”患者的算法,以用于抗糖尿病药物的比较评估。然而,由于没有详细的表型定义方式以及该定义可能的局限性,因此对于审查者或决策者来说不易了解该算法是敏感的还是特异性的,以及是否能识别新发或现患糖尿病。此外,该算法如何考虑时间窗(如果有的话)以及如何区分1 型、2型和妊娠糖尿病也是值得关注的问题[43-44]。

 

3.2.3 描述可供审查人员使用和软件访问的数据

 

当评审人员和软件可以查看的EHR 数据全面且一致时,即可评估NLP 或ML 算法在理想条件下表型分类或识别临床事件的“有效性”。例如,当参考标准和NLP 基于完全一致的数据源时,注释者的一致性被视为待评估的NLP 性能上限。但是,当审查人员和软件与可以使用的数据仅有部分重叠时,评估的重点实际上将在NLP 或ML 算法的“有效性”上。以后者为例,可能会出现审查员可以人工访问或检查整个医疗机构并查看某种状态是否存在或缺失,但如果使用NLP 或ML算法只能通过结构化数据或部分文本记录访问数据库。

 

为相关审查人员提供其应用软件可用的EHR 数据类型的信息,可为获得参考标准的数据质量和完整性提供重要的背景信息。不完全获取患者记录或评审人员和(或)软件可用的数据不一致,均可能会影响NLP 或ML 算法的性能、有效性和外推性的评估。

 

3.2.4 提供自然语言处理或机器学习算法的完整描述,包括输入和输出数据的详细信息(用于主要、次要和敏感度分析)

 

该规范进一步扩展了TRIPOD [13] 关于预测模型报告规范的建议,用以解决NLP 或ML算法中使用非结构化数据所带来的其他复杂情况。

 

为提高全部分析复现性,建议共享代码和数据。然而,通常出于对隐私和知识产权的考虑,研究人员会避免数据、派生数据或代码的共享。此外,即使可以分享,在没有清晰详细文字描述的补充材料下,对于许多决策者和其他利益相关者而言也可能还是缺乏对于报告NLP 或ML 算法复杂性的透明化。此外,在缺乏共享数据和代码能力的情况下,仍然可以报告关键细节用以增进对NLP 或ML 算法中参数设置决策的理解,从而有助于对研究问题的有效性和适合性进行评估。

 

另外,该规范提倡可以用不同的格式提供输入和输出的细节,例如,输入- 输出流程图、去标识化的样本图,其应包含流程每个步骤中相关部分的重点和(或)自然语言代码执行的每个步骤的汇总结果。一些有助于提高信息提取系统的透明度和可重复性的细节, 包括软件包的名称和版本,带有用于映射临床概念的本体引文或附录( 例如RxNorm、SNOMED-CT 或研究者自定义的映射附录),选择用于NLP 或ML 算法中包含的输入和调整参数(例如剪枝、词义歧义消除、词序等),以及输出的详细信息(例如算法、规则、模型、系数等)报告使用的NLP 或ML 算法或软件名称,描述或列出算法、配置设置和计算环境的规范对于评审人员和其他研究人员了解如何从非结构化数据中提取变量同样十分重要。

 

3.3 结局

 

3.3.1 研究人群的描述

 

许多其他指南报告文件中也提及需要报告研究人群特征的基本原理[14-18],其中包括信息表(显示纳入符合条件的患者编号),提取人群的基线特征以及研究结果数量和时间框架。该推荐为便于研究人员和评审人员能够描述、评估所获取变量的频率是否与预期一致。这一推荐同样也适用于开发或使用从NLP 或ML 算法获得信息的研究中。

 

3.3.2 提供一致性/ 等级间可靠性的表现情况

 

人工审查可能存在一定主观性。如果评审人员之间一致性差,则会降低对用于训练NLP 或ML算法参考标准的可靠性的信心[45]。评审人员之间的信度评价指标包括Kappa 值、组内相关系数、F值等其他指标[46]。

 

3.3.3 提供多种测量/ 评估训练算法和验证数据的方法(用于主要、次要和敏感性分析)

 

提供评估NLP 或ML 算法正确识别临床事件表型的性能指标,对于评估预期的错误分类程度以及算法性能是否适合目前的研究是十分必要的。为了进行此类评估,除了报告阳性预测值外(PPV :是指算法评估某种情况的存在,该情况实际真实存在的概率,也称为“精确度”),还需提供其他指标(阴性预测值NPV :即假定算法评估为不属于某种情况,且实际上确实不存在该情况的概率),敏感性(通过算法正确识别的真实阳性比例,也称为“重现性”),以及特异性(由算法正确识别的真实阴性的比例)[47]。为了避免高估模型的性能,应针对未用于训练算法的测试(验证)数据样本报告上述指标情况。

 

PPV 和NPV 均取决于所评估疾病的患病率[47]。如果已知基础队列的抽样框架,则在评估表现指标时,可以通过抽样比例对抽样的病例和对照进行加权[48]。尽管敏感性和特异性不取决于疾病的患病率,但这些指标在不同人群中可能有所不同。对于算法而言,其具有的高特异性与高敏感性可能会根据测量方式不同而变化。例如,当使用缺血性卒中的算法作为排除标准时,为确保研究人群不包括患有中风的患者,高灵敏度可能比高PPV 更重要。相反,当进行一项比较效果研究,使用与效果相关的测量方法评估缺血性卒中风险结局发生风险,高特异性可能更优。

 

分类研究中可能涉及的其他指标包括C 统计量(工作特性曲线下的面积)和综合判别改善统计量[49]。校准调整措施也可能与预测研究有关[50]。

 

04思考与研究展望

 

新证据对决策者降低决策的不确定性作用显著。透明的数据来源和研究过程的详细报告可一定程度提高研究可信度以及对于研究质量的信心[9,51]。清晰地报告研究流程、方案和其他科学决策,在应用于具有不同数据源和总体的其他研究时,有助于提高NLP 或ML 算法的重现性、真实性和相关性[9,51]。当研究使用以NLP 或ML 算法获得的表型或临床事件,或将其作为可重复使用的结构化元素储存于数据库中时,本文建议应注重考虑前述9 方面内容的重要性。这些具体信息可以通过互联网链接,引文或经过同行评审的出版物以及报告中的附录公开共享。未来的研究重点将为如何更好引用已发表研究的相关元数据保留数据源链接。

 

利用NLP 或ML 算法基于非结构化电子健康数据开展真实世界比较效果和安全性研究过程中仍存在一些挑战。例如,在分布式网络中需关注:①将非结构化数据中的NLP 或ML 算法编码元素存储在关系表中作为共享资源;②保留非结构化原始数据,并存储NLP 或ML 算法库以获取所需的元素。尽管某单一研究项目可以根据研究目的开发、评估和选择经过优化的算法,这些算法在用于分布数据网络进行计算数据模型时(即算法作为多个研究人员的共享资源)可能出于许多临床因素的考虑, 很难确定一个适用所有中心情况的算法。符合真实研究环境的“ 最佳” 算法可能取决于许多因素,包括具体使用的病例、医院系统和时间的变化等。例如, 一个医院系统中的高性能算法可能很好地用于另一医院系统, 并且随着实践模式和EHR 系统的变化,同一系统中算法的性能可能会随时间而降低。一段时间内,在多个研究人员使用的卫生系统数据存储中,可能存在多个用于类似概念的算法版本。分布式数据网络中的成员用来定义表型或临床事件的算法在其他成员持有的EHR数据中不一定能够很好地执行。因此, 对于在分布式数据网络中进行的研究, 其关键操作要点之一应及时保存信息提取过程的清晰文档记录, 以及在将要应用这些算法的数据系统中对这些算法的性能进行评估。

 

NLP 或ML 算法的细微差异及其在不同人群中的性能差异,可能会对研究结果产生实质性影响[52]。在越来越关注分布式数据网络和重复使用以前开发的NLP 或ML 算法获取数据元素的研究环境中, 明确这些数据变量是如何创建以及其在不同数据系统中的有效性证明,对于从分布式EHR 网络提取信息生成有价值的真实世界证据都至关重要。

 

05结  论

 

本文介绍的报告规范旨在鼓励适当使用HER 数据基于NLP或ML 算法提取的信息,提高研究报告的透明度,更好地用以支持真实世界证据的产生。鉴于发表文章字数限制,建议相关学者、研究人员可以在相关技术附录或以单独发表方案提供详细信息。诚然,一些期刊已经开始对数据、分析、设计和研究过程中其他要素的报告规范提出了更严格的要求[53]。本文对于报告规范的解读推广,可以使读者增强对当前报告中缺失内容的认识,以及如果透明地报告相关内容,可以使决策者更好地了解来自于管理和临床保健数据库中产生的真实世界证据的质量、有效性和相关性。

 

分享到:

来源:中国食品药品监管杂志