您当前的位置:检测资讯 > 科研开发

利用真实世界数据的上市后药品安全监测的统计学方法综述

嘉峪检测网        2021-12-25 22:30

利用真实世界数据的上市后药品安全监测的统计学方法综述

 

From Real-World Data to Safety Monitoring: A Overview of Statistical Methods in Post-Marketing Safety Surveillance

 

摘要  Abstract 

 

药品不良反应,特别是危及生命的药品不良反应,是患者、临床医生和监管机构的重要关注点。严重药品不良反应的发现常伴随强制性四期临床试验、说明书中的黑框警告或者最终被迫退出市场。监管方、支付方和供应方一直致力于利用真实世界数据为包括上市后药品安全监测在内的药品全生命周期管理提供高质高效的决策支持。本文按照不同类型的真实世界数据,对上市后药品安全监测相关统计方法进行回顾和概述,包括基于自发报告系统、电子健康记录、保险索赔数据以及混合数据源的方法。不仅涵盖了开发成熟、得到广泛应用的方法(如比值失衡分析法、疫苗监测中的最大序贯统计检验方法等),还包括仍处于开发验证阶段的方法(如肿瘤药物监测中的最大序贯统计检验方法、药物警戒专用数据处理管道等)。本文主要介绍了各方法的适用场景及优劣,并结合实例进行阐述。此外,还就真实世界数据二次使用过程中的注意事项、安全信号再评估的必要性、统计学方法的底层假设、新兴方法在未来的使用和推广进行了讨论。

 

Adverse drug reactions (ADRs), especially life-threatening ADRs, have been a major concern for patients, clinicians,and regulatory agencies. The identification of serious ADRs usually results in mandatory phase IV clinical trials, black box warnings on the label, or even drug withdrawal from the market. Regulators, payers, and health providers have been leveraging real-world data for effective and efficient decision-making throughout the product life cycle. We reviewed several statistical methods for post-marketing safety surveillance, including methods based on spontaneous reporting databases, electronic health records and insurance claim data, as well as methods based on mixed sources. Some of these approaches are welldeveloped and widely applied (e.g., disproportionality analysis, MaxSPRT in vaccine surveillance), while others are still emerging or experimental (e.g., MaxSPRT in oncology drug surveillance, pharmacovigilance data processing pipeline). This paper evaluates the applicable scenarios, strengths and weaknesses of these methods, and provides examples. In addition,we discuss the issues of re-using real-world data, the necessity of re-evaluating safety signals, the underlying assumption of those statistical methods, as well as the challenges and opportunities of emerging methods.

 

关键词  Key words 

 

真实世界数据;上市后安全监测;统计方法;自发报告系统;纵向观察性数据

 

real-world data; post-marketing safety surveillance; statistical methods; spontaneous reporting system;longitudinal observational database

 

药品不良反应是目前备受关注的公共卫生问题之一,是十大致死原因之一。在美国,每年由药品不良反应所造成的疾病经济负担高达750 亿美元[1]。目前,药物警戒主要分为上市前评审和上市后监测两部分。由于在上市前评审中通过体内或体外试验发现新药和现有药品之间所有可能的相互作用十分困难,因此对药品上市后安全性进行监测是非常必要的[2]。

 

上市后药品安全监测主要依赖于真实世界数据,需要综合使用多种统计分析方法。用于上市后监测的真实世界数据通常包括自发报告系统(spontaneous reporting system, SRS)、电子健康记录(electronic health record,EHR)和保险索赔数据等[3]。其中,SRS 数据是上市后药品安全监测的关键资源,包含由患者和医疗保健专业人员报告的可疑药品不良反应,属于被动监测模式下收集的数据[3-4]。然而,仅依赖SRS 数据的药物警戒具有很大的局限性。通常,SRS 数据漏报率较高,无法提供用药人群的基数,进而无法计算不良反应的发生率和风险,且在数据变量上SRS 数据缺少准确时间信息,导致患者暴露时长信息的缺失[3-5]。相比之下,EHR 和保险索赔数据均属于主动监测模式下收集的数据,可以提供用药人群的基数,包含患者的纵向随访信息,可提取暴露时长数据[3,5]。因此,上市后药品安全监测应综合考虑不同来源和类型的数据,特别是综合了多种来源数据的混合数据源数据。

 

本文从真实世界数据类型出发,对上市后药品安全监测的统计分析方法展开论述。分别对适用于基于被动监测模式下的SRS 以及基于主动监测模式下的EHR、保险索赔数据等纵向观察性数据的统计方法,以及连续监测方法进行介绍。主要介绍了各方法的适用场景、优劣以及注意事项,并结合实例进行阐述;讨论了新兴方法在未来的使用和推广中可能遇到的机遇和挑战。

 

01基于SRS 的上市后药品安全监测

 

目前, 比值失衡分析法常用于SRS 的上市后药品安全监测。该方法的假设是:若药品与某些不良事件存在因果关联,那么该药品- 不良事件组合的实际发生数将超过预期,即二者的比值出现失衡,当比值失衡的程度超过事先界定的阈值时, 则可认为出现一个安全信号[6]。药品- 不良事件组合比值失衡程度的计算基于2×2 四格表(表1), 表2 总结了衡量比值失衡程度的常见指标, 包括报告比(reporting ratio,RR)、信息成分(information component,IC)、比例报告比(proportiona lreporting ratio,PRR)、报告比值比(reporting odds ratio,ROR)[4,7]。

 

利用真实世界数据的上市后药品安全监测的统计学方法综述

 

利用真实世界数据的上市后药品安全监测的统计学方法综述

 

比值失衡分析法的假设检验主要有频数学派和贝叶斯学派2 种方法。频数学派方面, 安全信号的检测既可通过对比值失衡指标95% 可信区间的下限是否大于0 进行检验, 也可进行卡方检验[6]。此外, 一些机构[ 如英国药品和保健产品管理局(Medicines and Healthcare Products Regulatory Agency,MHRA)] 采用结合了多个指标的综合判定法, 将比例报告比、实际报告数和基于比例报告比的卡方检验统计量作为信号的判定标准[7]。贝叶斯学派方面, 安全信号检测方法主要包括贝叶斯可信区间递进神经网络法(Bayesian Confidence Propagation Neural Network,BCPNN) 和伽马泊松压缩法(Gamma Poisson Shrinker,GPS),二者均基于报告比,分别由世界卫生组织乌普萨拉监测中心和美国食品药品监督管理局(Food and Drug Administration,FDA) 不良事件报告系统(Adverse Event Reporting System,AERS)建立和使用[8-10]。BCPNN 法通过假设药品、不良事件的先验概率P(A)、P(D)服从独立Beta(1,1)分布,利用贝叶斯原理计算信息成分值,即Log2(RR),对安全信号进行检测。GPS 法则假设药品- 不良事件组合的实际发生数服从泊松分布,且该组合的发生率服从包含2 个负二项分布的混合分布,于是报告比服从包含2个Gamma 分布的混合分布,并利用贝叶斯原理计算经验贝叶斯几何均数(Empirical Bayesian Geometric Mean,EBGM) 以反映报告比。二者的主要区别为:① BCPNN 法采用无信息先验,而GPS 法的先验分布基于收集得到的样本信息,其先验分布中的超参数通过极大似然估计的方法确定;② BCPNN 法的安全信号常用判别准则为IC-2SD > 0(SD 为IC 的标准差), 而GPS法的安全信号判别准则为EBGM的90% 可信区间的下限(EB05)不小于2[8-10]。多项伽马泊松压缩法(Multi-item Gamma Poisson Shrinker,MGPS) 是对GPS 法的改进,可通过依协变量分层计算期望发生数的方法,达到调整协变量的目的[11]。然而无论采用何种方法,均无法弥补SRS 缺少分母信息的缺点,因此无法进行风险估计。此外,上述方法在多重检验过程中均未考虑第一类错误的控制,故采用以上方法进行安全信号检测时第一类错误可能发生膨胀[12]。

 

van Puijenbroek 等[13] 分析了频数学派在SRS 中检测安全信号的表现。结果显示, 若以BCPNN 法为金标准, 基于比例报告比或报告比值比的区间估计法以及卡方检验的灵敏度很高(即检测出真实信号的可能性很大)但特异度低(即假阳性的可能性也很大),随着报告数的增加,特异度和阳性预测值均上升。Dumouchel 等[10] 发现, 当药品- 不良事件组合的实际发生数很小时,报告比的估计值将十分极端。例如,阿卡波糖- 肝癌组合的实际发生数为1、期望发生数为0.00036,此时的报告比高达2817。相反,若采用GPS 法,上述阿卡波糖- 肝癌组合最终的EBGM 值仅为2.4,结果则十分保守。然而随着组合实际发生数的增加,报告比与EBGM 将逐渐接近。例如,碘他拉酸- 荨麻疹组合的实际发生数为2924、期望发生数为248.9,该组合的报告比和EBGM 值均为11.8。因此,贝叶斯学派的方法对于罕见安全信号的检测更为稳健[10]。

 

综上,比值失衡分析法通过一些常用的阈值比较规则得到阳性信号,虽然简单直观,但是存在假阳性和假阴性的问题相较于假设检验的方法更为明显。因此,不能直接只基于信号检测的结果进行因果关联的判断,但可以在后续对信号深入的评估和分析中更充分地使用[4,6]。

 

02基于纵向观察性数据的上市后药品安全监测

 

应用于上市后药品安全监测的数据还有EHR 和保险索赔数据,其特点是能够获得基于个体水平的纵向观察记录,能够掌握总体用药人群信息,弥补SRS 的缺陷[5]。

 

2.1 比值失衡分析法

 

比值失衡分析法同样可以应用于纵向观察性数据,但此时构建2×2 四格表的方式与SRS 存在差异。Zorych 等[5] 提出了3种四格表构建方法:①基于患者法:根据每个患者用药和不良事件发生情况对其进行分组,使得最终四格表的总计为数据库中的患者总数;②模拟SRS 法:类似SRS 的模式(表1),只保留用药且出现不良事件的患者,每个患者可贡献多条记录,最终四格表的总计不一定等于患者总数;③改良SRS 法:结合了纵向观察性数据的特点, 考虑了使用药品但未出现不良事件的情况,即无事件暴露(event-free exposure)和出现不良事件但未使用药品的情况,即无暴露事件(exposure-free event)。无事件暴露和无暴露事件不会出现在传统的SRS 数据中,改良SRS法利用纵向观察性数据中对患者长期随访所得到的信息丰富的优势,将无事件暴露和无暴露事件记录入2×2 四格表(表3)。其中,无事件暴露的患者用药情况会被记录入表3 的B 格或者D 格;无暴露事件会被记录入C 格。此外,比值失衡分析法还可对是否只纳入首发不良事件进行限定[5]。当同一患者服药期间首发和复发的不良事件对于安全信号的衡量均重要时,应同时考虑非首发不良事件。

 

纵向观察性数据的比值失衡分析法的假设检验同样可分为频数学派和贝叶斯学派2 种方法。Zorych 等[5] 将上述四格表构建方法与是否限制首发不良事件进行了方法上的排列组合,并利用Thomson Reuters 数据库进行了不同方法组合的模拟分析和实例验证。结果显示,模拟SRS 法和改良SRS 法的表现优于基于患者的四格表构建方法,而是否只纳入首发不良事件对结果影响不大。此外,贝叶斯学派方法的稳健性和准确性依旧优于频数学派。

 

Schuemie 等[14] 进一步对GPS 法进行了改良,提出纵向伽马泊松压缩法(Longitudinal Gamma Poisson Shrinker,LGPS)。LGPS 法在计算药品- 不良事件组合的期望发生数时结合了暴露信息,即先将未用药人群发生的不良事件数除以未用药人群的总观察时间,以此作为不良事件的背景发生率,之后将其乘以用药人群的总暴露时长, 作为该组合的期望发生数。由于LGPS 法利用了数据库中的暴露信息,故能够对风险进行估计,发挥了纵向观察性数据的优势[15]。此外,Schuemie等[14] 还利用观察性医疗结果合作组织(Observational Medical Outcomes Partnership ,OMOP)的模拟数据库对LGPS法、基于患者的GPS 法、模拟SRS-GPS 法和改良SRSGPS法4 种方法进行了比较。结果显示,LGPS 法在信号检测方面的稳健性和准确性(即对假阴性和假阳性的控制上)优于其他3 种方法。

 

为了进一步减少原始反应偏倚(protopathic bias) 导致的假阳性信号,Schuemie 等[14]又提出了药品相关不良事件纵向观察评估法(Longitudinal Evaluation of Observational Profiles of Adverse Events Related to Drugs,LEOPARD)。原始反应偏倚是指某些药品可用于治疗一些疾病引起的症状,但该疾病在用药时并未得到诊断,从而错误地得出药品与疾病之间存在关联的结论。例如,镇痛药会在癌症诊断前使用,但不能得出镇痛药的使用与癌症有关[16]。LEOPARD 法首先通过图示法对检测出的信号是否受到原始反应偏倚的影响进行检查,以开始用药至出现不良事件的时间为横坐标、累计分布百分比为纵坐标(图1)[14]。若用药在不良事件发生前的比例低于不良事件发生后,则表明信号可能受到原始反应偏倚的影响(如图1 中的绿线);若用药相对于不良事件的发生呈对角线分布,则表明这个信号可能受到某些混杂因素的影响,需要进一步验证(如图1 中的蓝线);若用药在不良事件发生前的比例高于不良事件发生后,则提示这个信号可能是真实的安全信号,但仍需后续研究验证(如图1 中的红线)。具体的假设检验方法有单侧二项检验法和反LGPS 值法:单侧二项检验法可检验不良事件后窗口期内的处方数量是否显著大于不良事件前,如果P 值小于预先设定阈值,则任务存在显著的原始反应偏倚。反LGPS 值法首先对开始用药至出现不良事件的时间取相反数,并重新计算反LGPS 值,若其大于原始LGPS 值, 则提示信号可能受到偏倚的影响[14]。Schuemie 等[17] 评估了不同统计分析方法用于EHR 的表现。结果显示,将LEOPARD 法作为其他方法的阳性信号过滤器,即在得到阳性信号后使用LEOPARD 法检测是否存在原始反应偏倚导致的假阳性信号,若存在则将这个阳性信号去除,能够提高安全信号检测的整体表现,但该方法有时也会错误地将某些已知的不良事件归因于受到原始反应偏倚的影响。

 

利用真实世界数据的上市后药品安全监测的统计学方法综述

 

2.2 处方时序对称分析法(Sequence Symmetry Analysis, SSA)

 

1988 年,Petri 首先提出处方时序分析的概念[18]。1998年,Hallas 进一步对SSA 进行了阐述,并首次使用该方法分析了心血管药物引起抑郁症的安全信号[19]。

 

SSA 的基本假设是:若目标药品与某一不良事件存在因果关联,且该不良事件需要通过另一种指示药品来治疗,那么将会出现使用目标药品后指示药品的处方数量增多的现象,即处方时序为目标药品→指示药品的患者数量将多于处方时序为指示药品→目标药品的患者,时序分布不对称。SSA 一般与自身对照设计相结合,纳入分析的研究对象应同时有目标药品和指示药品的使用,以便根据患者目标药品和指示药品的处方时序判定患者的类型[19]。SSA 的假设检验基于时序比(sequence ratio,SR), 即正反处方时序数量之比[19-20]。但考虑到指示药品的使用可能受到其他因素(如医保报销政策改变)的影响而出现自然增长的情况,因此需要通过校正系数对原始时序比(crude sequence ratio)进行校正并得到经校正的时序比(adjusted sequence ratio,aSR)。此处的校正系数为零效应时序比(null-effect sequence ratio),即在药品与不良事件间不存在因果关联的零假设下的期望时序比,代表了背景人群的处方时序信息[19-21]。SSA 的一大优势是能够对风险进行估计,相对应的风险估计值就是时序比。若校正后时序比的95% 可信区间的下限大于1,则意味着出现一个安全信号[15]。此外,由于采用了自身对照设计,SSA 能够较好地控制那些不随时间变化的混杂因素(如性别),但并不能控制其他随时间变化的因素(如个体临床严重程度)[20]。

 

由于SSA 的原理简单、易懂,并且最少只需研究对象识别码、处方编码和处方时间3 个变量信息即可进行分析[20],许多研究采用SSA 对药品安全信号进行检测。Tsiropoulos 等[21] 通过使用SSA 和欧登塞大学药物流行病学数据库(Odense University Pharmacoepidemiological Database,OPED) 对抗癫痫药相关的安全信号进行了检测。OPED 是一个基于人群的处方数据库,来源于医保报销数据,覆盖了丹麦菲英岛1990 年8 月至2006 年12 月的相关处方数据。Tsiropoulos 等[21] 在分析过程中使用的变量包括研究对象识别码、年龄、性别、处方日期、处方商品名、使用方法、计量单位、解剖学治疗学及化学分类系统(anatomical therapeutic chemical,ATC) 编码以及限定日计量(defined daily dose,DDD)。此外,还将抗癫痫药使用者限定为研究期间初次用药患者(incident users)。具体操作方式是设定一个为期14 个月的磨合期,即只将数据库中1992年10 月之后的抗癫痫药使用者纳入分析。研究最终检测出一些先前未知的抗癫痫药安全信号,如托吡酯与多巴胺类药物(aSR :10.4,95%CI :1.5~448), 需要进入下一步的验证。除此之外,SSA 还用于与下尿路症状[22]、青光眼[23]、心衰[24] 等不良事件相关的药品安全信号检测。除安全信号的检测外,SSA 还可以对可疑安全信号进行验证和风险评估。例如,估计服用心血管药物后引发抑郁症的风险(钙通道阻滞剂的aSR :1.31,95%CI :1.14~1.51)[19]、服用他汀类药物后引发下尿路感染(aSR :1.17,95%CI :1.05~1.30)[25]、睡眠障碍(aSR :1.18,95%CI :1.11~1.25)[26] 以及恶性肿瘤(如胰腺癌aSR :1.31,95% CI :1.13~1.53)[27] 等不良事件的风险。

 

2.3 似然比检验分析法(Likelihood Ratio Test,LRT)

 

LRT 也可以用于药品安全信号的检测,其统计量为药品- 不良事件组合的最大对数似然比值,该比值的分子和分母分别为备择假设和零假设条件下样本的最大似然估计值。最大似然估计值的计算一般基于药品- 不良事件组合的发生数服从Poisson 分布或者Binominal 分布的假设[28-29]。假设检验方面,若药品和不良事件无因果关联,二者的最大对数似然比值将出现在1 周围,但当二者的比值大于1 且超过事先设定的阈值时,则可以认为出现信号。基于零假设下样本服从条件多项式分布,LRT 采用蒙特卡洛法生成若干随机样本,并根据事先设定的第一类错误大小最终确定信号阈值。具体来说,首先通过蒙特卡洛法随机产生1000 个样本,而后对这1000 个随机模拟样本的最大对数似然比值进行排序,若第一类错误设定在0.05,那么由大到小的第50 [1000×(1-5%)] 个最大对数似然比值就是信号阈值。所有对数似然比值大于阈值的药品- 不良事件组合均可视为安全信号,通过模拟生成的经验分布来确定阈值的方式不会造成第一类错误的膨胀。值得注意的是,LRT 可以与α 消耗函数相结合,进行几乎实时的连续监测的同时,也保证了第一类错误的控制。此外,LRT 还可以通过分层计算期望的方式对协变量进行调整[28-29]。

 

纵向观察性数据在使用LRT时需要利用暴露信息计算对数似然比值,此时LRT 也称为纵向似然比检验分析法(Longitudinal Likelihood Ratio Test, Long-LRT)[29]。暴露时间根据是否区分首发和复发的不良事件可分为三类:① 基于事件的暴露时间(event-time):即不区分首发和复发不良事件,对于每个不良事件,其暴露时间为开始用药至出现不良事件的时间;②基于人时的暴露时间(person-time):即只考虑首发不良事件,其暴露时间为开始用药至第一次出现不良事件的时间;③基于药物暴露的暴露时间(exposure-time):即考虑复发不良事件,对于每个患者发生的所有不良事件(包括首发和所有复发不良事件)而言,其共享同一个暴露时间(即每个患者各自从开始用药至结束用药的时间)[29]。

 

面对不同的安全信号检测问题,需要选择相应的暴露时间,具体情况可分为:①基于药品:比较不同不良事件的发生情况,须使用基于事件的暴露时间;②基于不良事件(只考虑首发不良事件):比较不同药品的使用情况,须使用基于人时的暴露时间;③基于不良事件(包括复发事件):比较不同药品的使用情况,须使用基于药物暴露的暴露时间[29]。Huang 等[29] 使用以上3 种暴露时间,利用多个临床试验的集合数据库,对治疗骨质疏松药品合并使用质子泵抑制剂时的安全信号进行检测。结果显示,LRT在准实时性监测的过程中具有较好的统计效果和第一类错误控制效果。

 

除纵向观察性数据外,LRT还可用于SRS,此时对数似然比值的计算基于前述2×2 四格表(表1),但相关计算并不涉及暴露时间(或者可以近似看作是每个患者的暴露时间相等)[28]。Huang 等[28] 利用LRT 对FDA药品不良反应报告系统中孟鲁司特在自杀行为以及行为改变方面的不良事件信号以及2004~2008年与肝素使用相关的安全信号进行检测。结果表明,当LRT 用于样本量较大的SRS 时的统计效能低于比例报告比法和BCPNN 法,但其控制第一类错误和错误发现率(false detection rate) 的表现较好。

 

03连续监测:序贯概率比检验法(Sequential Probability Ratio Test,SPRT)

 

虽然纵向似然比检验分析法也可用于连续监测, 但目前SPRT 仍是处理连续监测问题的主要统计分析方法。此外,SPRT 还可以在对药品与不良事件关联进行连续实时监测的同时控制第一类错误[30]。常见的SPRT 包括MaxSPRT 和条件MaxSPRT(CMaxSPRT)。MaxSPRT 和CMaxSPRT 的核心在于连续地进行观察与期望分析(observed and expected analysis)来生成信号,通过对比对数似然比值和阈值来比较观察事件数和期望事件数,当观察事件数超过期望事件数时,一个潜在的安全信号就产生了[30]。

 

3.1 MaxSPRT

 

当从历史数据中获得足够多的信息来支持一个期望事件数时,会采用基于Poisson 分布的MaxSPRT。在Poisson 分布假设下,可以从历史数据中得到基线风险函数,即在零假设下,当药品与不良事件没有关联时,给定总暴露人时后预期会观察到的不良事件数。此处的总暴露人时是指数据中所有个体暴露人时的总和,所以基线风险函数是一个关于时间的函数。除了基线风险函数以外,MaxSPRT 的实施还需要一个预先设定的上界值。上界值是在零假设下的期望事件的累积数,反映的是监测的时长。当基线风险函数高过上界值,即表示经过足够长时间的事件积累,观察到的事件积累与原假设下的积累事件数没有差异,无法拒绝原假设,检测会停止。在给定上界值和第一类错误α 后,可以通过蒙特卡洛模拟或者查表的方式得到不同第一类错误下的阈值。通过连续地比较观察到的对数似然比值和阈值,进行安全信号监测[30]。

 

MaxSPRT 已被广泛应用到疫苗检测领域,如英国的黄卡计划(Yellow Card Scheme)。MHRA 采用MaxSPRT 进行人乳头瘤病毒(Human Papilloma Virus,HPV)疫苗的上市后安全监测。Donegan 等[31] 详细描述了HPV 疫苗上市后在12~18 岁女性中慢性疲劳综合征(Chronic Fatigue Syndrome,CFS) 信号监测中MaxSPRT 的应用。该项目进行了近乎实时的观察与期望分析,比较了通过黄卡计划提交的慢性疲劳综合征报告的数量(即观察值)和从英国临床实践研究数据链(Clinical Practice Research Datalink,CPRD)中计算出的用于计算期望值的背景率。通常所有疫苗接种者的暴露时长是假定相同的,在这个假定下,基线风险函数作为时间的函数等价于疫苗接种人次的函数,于是通过CPRD 中12~18 岁女性慢性疲劳综合征的背景发生率可以得到基线风险函数,基于固定的基线风险函数,从黄卡计划中任意一时刻所累积的疫苗接种人次计算得到慢性疲劳综合征的期望事件数,并与当前观察事件数比较,以此实施MaxSPRT 的连续检测[31]。但是黄卡计划作为被动SRS,存在报告率偏低的问题,因此在实施MaxSPRT 的时候,会假设不同级别的报告率分别进行信号检测。当假设报告率> 25% 时,没有发现慢性疲劳综合征信号;当假设报告率≤ 10%时,检验提示出现信号[31]。尽管报告率的确切数值无法被验证,但鉴于以下3 个原因:①该HPV 疫苗产品附带黑三角标识(表示该新药/ 疫苗正在进行集中监测以确保及时发现新的安全隐患);②英国人类药物委员会(Commissionon Human Medicines,CHM)和MHRA 鼓励报告所有新药/ 疫苗的可疑反应[32] ;③ MHRA 在该项目前期发布了指南来鼓励不良事件的报告,MHRA 认为预期的报告率应当高于10%,即基于MaxSPRT 的连续监测没有发现慢性疲劳综合征信号。该HPV 疫苗强化药物警戒计划的成功实施提供了直接的证据,即接种HPV疫苗与慢性疲劳综合征风险增加之间没有关联,这一点在后续更全面的流行病学研究中也得到了进一步证明。

 

此外,MaxSPRT 还被应用于黄卡计划中新型冠状病毒疫苗[33]、流感疫苗等多种疫苗的上市后安全监测,以及美国疫苗安全数据链(Vaccine Safety Datalink,VSD)中各类疫苗的上市后安全监测。

 

3.2 CMaxSPRT

 

在实践中,基线风险函数通常是根据监测开始前在未接触疫苗或目标药品的队列受试者中收集的历史数据估计的。例如,“3.1 MaxSPRT”中的实例使用了CPRD 慢性疲劳综合征的历史数据。CPRD 拥有英国最新的人口统计、临床、处方和转诊数据。这些数据提取自全英国350 多万条EHR,有1250 多万患者的历史数据。CPRD 研究小组会评估提取数据的质量和完整性,并且只纳入可接受的患者数据及临床操作符合标准的医生数据作为流行病学研究基础。

 

然而在很多其他研究中,可及的高质量历史数据可能样本量较小, 或者研究者所关心的不良事件本身发生率很低, 此时MaxSPRT 可能会出现偏倚和第一类错误膨胀。Li 等[34] 通过模拟的方式,展现了当历史数据中的不良事件数小于预先设定的上界值的5 倍时,MaxSPRT 会出现较为严重的第一类错误膨胀问题[34]。MaxSPRT 没有考虑基线风险函数估计的随机性,因此当历史数据没有包含足够的信息时,对预期值估计的变异性就会增大。为了解决这个变异性导致的第一类错误膨胀问题,Li 等[34]提出CMaxSPRT,该方法不再需要基线风险函数,取而代之的是同时考虑历史人群和监测人群的随机性。CMaxSPRT 将从历史人群数据和监测人群数据中分别观察到的不良事件数作为条件,即看作不变的常数,把观察到的这些不良事件数所需要累计的人时作为随机变量。简单地比较2 种人群的不良事件发生率,如果不良事件在监测人群中发生的速度比历史数据中快得多,那么药品有可能存在额外的风险。与MaxSPRT 类似,CMaxSPRT的实施除了需要指定第一类错误α 以外, 还需要一个预先设定的不良事件数上界值,当监测人群中观察到的不良事件数超过上界值且依旧没有观察到信号时,监测会停止。值得注意的是,CMaxSPRT 中的上界值是研究者预先指定的一个不良事件数,内在比较的是该不良事件数所需要的累计人时与历史数据的对比;而MaxSPRT 中的上界值实则反映的是监测时长,体现在零假设下所对应的不良事件数[34]。

 

CMaxSPRT 目前被美国疫苗安全数据链项目[35-36] 用于研究HPV 疫苗上市后在9~18 岁(不包含18 岁)亚群和18~27 岁(不包含27 岁)成年亚群中的不良事件,该项目由7 个大型健康计划与美国疾病控制中心合作开展,于2006 年8 月20 日开始,一直持续到2009 年9 月[37]。Li 等[34]使用2006~2008 年的监测数据报告了在成年亚群中过敏反应的初步结果。该项目的历史对照组由美国疫苗安全数据链资料中接受百日咳混合疫苗、破伤风和白喉疫苗、Menactra 疫苗( 一种预防脑膜炎球菌病的疫苗)或水痘疫苗的数据组成。2000 年1 月~2006 年6 月,共接种疫苗67 511 次,发生过敏反应14 次。在预先指定的MaxSPRT 上界值为40 的情况下,MaxSPRT 在第60 周生成唯一信号,检验统计量略大于阈值(图2)。历史数据中的不良事件数14 与上界值40之比0.35 远小于基于模拟得到的常用阈值5,在这种情况下,由于没有考虑到在估计基线风险函数时的随机性,使用MaxSPRT导致假阳性被放大。如果采用CMaxSPRT,因其考虑了期望值和观察值的随机性,在整个监测期间,检验统计量始终维持在一个很小的水平,零假设从未被拒绝[34]。

 

利用真实世界数据的上市后药品安全监测的统计学方法综述

 

3.3 MaxSPRT 和CMaxSPRT 方法在实践中的挑战

 

MaxSPRT 和CMaxSPRT在疫苗上市后连续监测领域的广泛使用得益于以下两点:①在处理疫苗暴露时长时,可以依据疫苗固定的给药次数假设每个个体的疫苗暴露时长是相等的。累计暴露人时即可被简化成疫苗接种人次的累加。仅仅需要疫苗接种人次的数据统计, 即可实施MaxSPRT 和CMaxSPRT。②疫苗项目多在健康人群或某一年龄段(性别)的人群中开展,人群异质性较小,样本量较大,即使存在混杂因素,通过简单的分层(如年龄、性别)可以较好地控制混杂因素。然而在其他药品上市后连续监测中,如抗肿瘤药物或慢性病药物,每个个体的药物暴露时长差别大、个体之间异质性大、样本量相对小等因素,MaxSPRT 和CMaxSPRT 使用受到限制。

 

借力真实世界数据,可以突破以上挑战, 将MaxSPRT 和CMaxSPRT 推广到更多的疾病或药品领域。Shin 等[1] 鉴于SRS 数据不良事件定义明确但报告率低、个体基线信息和暴露时长信息不完善,而大型EHR 或保险索赔的真实世界数据含有更丰富的基线信息和药物暴露时间信息但对不良事件定义不明的现状,建议建立药物警戒专用数据处理管道(pharmacovigilance specialized data proces spipeline),将不同数据源的安全性数据分别转换到相同的观察性医疗结果合作组织通用数据模型,并通过荟萃分析、整合分析从不同数据源得到的结果,以生成药品安全性的真实世界证据。为了结合不同类型数据的长处,类似的思路也可用于MaxSPRT 和CMaxSPRT 的应用。利用通用数据模型将不同数据源进行预处理整合, 再利用混合Poisson分布或者其他分布衍生出适用于多数据源的MaxSPRT 和CMaxSPRT,并利用蒙特卡洛模拟计算相对应的阈值。

 

04讨  论

 

除了SRS 数据源, 其余的真实世界数据在上市后安全监测上的使用均属于数据的二次使用,即数据源本身并非是以上市后安全监测为目的设计的。在二次使用这些数据时,需要特别关注数据本身特点与研究问题的特征,以及数据源与研究问题之间的相关性[38]。在二次使用数据源时需要注意以下几点:①数据采集的完整性,如数据库是否可信地采集了患者所有的健康记录,数据库的覆盖性、信息完整性、时间长度等方面是否有明显缺欠;②通过数据库评价药物暴露时带来的偏倚;③通过数据库定义结局时的有效性;④数据库彼此之间的不一致性。

 

当二次使用真实世界数据进行上市后安全监测时,通常不可能进行数据验证和进行完全控制混杂的分析。因此,有必要进行敏感性分析以及安全信号再评估。敏感性分析通常包括增加人群的纳入和排除条件限制[39]、增加混杂控制[40]、将结论与外部数据做校准[41] 等。利用已经得到验证的研究方法来控制更多的混杂因素、校准结局变量或协变量,可以有效地解释安全监测中得到的假设。例如,通过连续监测,美国疫苗安全数据链项目发现了一个麻疹- 腮腺炎- 风疹- 水痘四联疫苗和共济失调统计意义上显著相关的信号,这个初始信号的产生意味着产生了一个麻疹- 腮腺炎- 风疹- 水痘四联疫苗可能会导致共济失调的假设。基于这个初始信号,研究者开展了安全信号再评估以对该假设进行验证。在随后的数据验证中发现这是由于某个研究中心将步态问题错误编码成了共济失调,真实情况中并不存在共济失调的问题,这个假设随即被推翻了[42]。再如,罗塔泰克(RotaTeq)和胃肠道出血的初始安全信号在仔细调整年龄、部位和接种周等因素后也消失了[42]。以上例子均说明在初步发现安全信号之后敏感性分析和再评估的必要性。

 

本文中提到的安全信号检测方法基于一个常见的假设,即如果药品与某些不良事件存在因果关联,那么该药品- 不良事件组合的实际发生数将超过期望。基于这个假设,反推如果出现在用药之后的不良事件超过期望,那么很可能是药品引起了不良事件。但是,这个逻辑在实践中并不是一定成立的。即使大量不良事件发生在用药之后,某些情况下依旧只能得到相关性而非因果性的统计结论。比如,引起某一不良事件的原因并非药品而是临床操作,那么也可能观察到以上的情况。因此,进一步说明了对安全信号再评估的重要性和必要性。

 

除了常见的EHR、保险索赔等真实世界数据,新一代基于社交媒体的真实世界数据具有更好的及时性、更大的信息量等特点, 但同时也存在数据质量更低、结构更复杂等问题。综合来看,在上市后安全监测中使用这些数据具有一定的潜力。近年来,通过使用统计模型、机器学习和深度神经网络架构等技术将社交媒体数据应用于上市后安全检测已经取得了进展。在一年一度的健康应用社交媒体挖掘(Social Media Mining for Health Applications)研讨会上,研究者提出了一种即使在出现非正式俚语术语或药品名称拼写错误的情况下也能够以较高的精确度和召回率识别药物的提取算法[43]。然而,对药品相关不良事件的高效识别仍然是一个挑战,因为同一药品不良反应的文字描述可能在书面描述上存在很大差异,如“胃”可能被表达为“胃痛”“胃疼”“腹痛”“肚子痛”等。此外,对药品摄入的第一人称和二级报告进行分类以此来确认社群中与不良事件相关的人群是另一个挑战。这一系列文本识别与分类的工作将数据源从与患者直接报告或直接相关的自发报告数据以及EHR或保险数据扩展到不与患者直接接触的社交媒体数据成为可能。但是在文本识别与分类之后,还需要将结构化的数据进一步处理成真实世界研究或者临床研究可用的数据。开发一个高建构效度、高信度、高反应性和模式间等效性的不良事件词典是一项重要工作。Basch 等[44] 阐述了针对患者报告结局的不良事件通用术语标准的开发。在利用社交媒体的安全性监测中,类似的不良事件通用术语标准版本的开发也尤为必要。理想情况下,这些努力最终将使系统能够主动监测社交媒体数据,并生成与药物警戒工作相关的实时统计数据以及数据库。

 

分享到:

来源:中国食品药品监管杂志