您当前的位置:检测资讯 > 科研开发

真实世界数据研究的信息安全挑战

嘉峪检测网        2022-11-13 23:35

Abstract摘  要

 

临床真实世界数据研究是通过利用临床医疗信息、健康行为监测等实际应用过程所产生的健康数据作为研究的信息基础。其数据应用过程,防止隐私信息泄露,在充分利用数据的同时保障数据安全与信息安全成为不可忽略的重要问题。对真实世界数据的应用应以明确数据权益为前提,在充分知情同意的情况下,依据法律法规和技术标准的相关要求,完善数据安全等级划分和分级安全保护策略,从物理安全、数据安全、应用安全各角度构建完整的信息安全保护体系,促进充分的数据利用。

 

Real-world study uses health information data generated from clinical care, health behavior monitoring and other applications as the information basis for research. In data applications, protecting the privacy information and ensuring the data security and information security, while making full use of data have become important issues. The application of real-world data should be based on clear ownership with informed consent, and follow the relevant requirements of laws, regulations and technical standards. The investigators should improve data security classification and hierarchical security protection strategy to build a complete information security protection system, including physical security, data security and application security, and promote data utilization.

 

Key words关键词

 

真实世界数据;数据安全;信息安全;隐私保护;权益

real-world data; data security; information security; privacy protection; rights and interests

 

基金项目

国家科技重大专项(2018ZX09206003-005);国家重点研发计划(2020YFC2006400)

 

在医学科学发展的历史进程中,临床研究是推动学科发展的重要方式。在长期的研究实践中,临床研究方法学不断完善,为临床循证奠定了基础。与此同时,临床研究数据作为临床研究的基石,其质量与可及性成为制约临床研究发展的瓶颈。一方面,只有高质量的研究数据方具备形成高质量临床证据的基础。通过长期的研究实践, 在临床研究领域逐渐形成了ALCOA+CCEA数据质量标准[ 包含可归因性(attributable)、易读性(legible)、同时性(contemporaneous)、原始性(original)、准确性(accurate)、完整性(complete)、一致性(consistent)、持久(enduring)、可用性(available)],已经被多个监管机构制定的指导原则和行业规范所采用[1-4],也成为了临床研究工作中普遍遵循的质量原则。另一方面,虽然临床医疗过程不断产生大量医疗信息,但由于传统信息保存媒介与方式的制约,这些数据很难直接为临床研究所利用。

 

随着信息技术的发展,信息获取、传递与储存方式都发生了巨大的变化,使更高效、全面的数据利用成为可能。

 

在真实世界数据获取方面,拥有了更多的获取途径:日常诊疗记录数据库、健康档案信息、医疗保险数据库,以及与生命健康相关的行为学、生理学数据也可以通过多种途径的可穿戴设备、检测设备获取,因而数据规模已经今非昔比。但是与此同时,大规模多来源数据也给数据的存储和管理提出了更高的要求。通过数据治理[5-8] 完善了数据库系统,实现了源流清晰、结构严谨、安全有效的大规模数据管理,进而为数据的充分利用提供了可能性。在可及性提升的同时,由于临床过程的直接记录有机会被应用于研究过程,也使研究数据溯源更为简洁。因此,信息技术的发展不仅使数据规模显著扩大,更加使得有机会以更间接的方式保留数据痕迹,实现数据质量的提升。这无疑对于临床研究的开展和临床过程未知领域的探索是有益的。

 

真实世界数据研究[9-11] 正是在信息技术的推动下,通过获取并利用来自真实临床过程的医疗数据、健康记录开展的临床研究,从而服务于临床循证的研究方式[12]。在方法学工作的配合下,让研究者得以充分的利用临床信息开展研究服务临床医疗。

 

随着研究数据获取的便利性增加,数据信息的可利用性大幅度提升,研究效率也有了明显的提高,但与此同时,信息安全也正面临着前所未有的挑战。在确保数据安全的前提下,实现临床信息的充分合理利用是临床研究者将长期面临的问题与考验。

 

Part.1  信息安全与数据安全面临挑战

 

数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力[13]。信息安全是指保护、维持信息的保密性、完整性和可用性,也可包括真实性、可核查性、抗抵赖性、可靠性等性质[14]。二者之间既有区别又有联系。数据安全重于数据信息本身,而信息安全则更强调数据信息获取、存储与应用的物理过程。但二者的核心目标相同:确保数据信息在获取、保存中的安全,防止丢失、篡改、泄露和不恰当的应用。

 

在临床研究过程中,患者信息一直是获得临床研究结论的媒介,患者信息安全一直是各方关注的问题。如何妥善地管理临床数据,防止数据丢失、被篡改甚或被窃取一直是临床研究数据管理工作的重要内容。随着数据获取、保存方式的进步,信息安全、数据安全所涉及的领域与任务也在不断地更新。

 

1.1 海量数据给临床真实世界数据应用带来前所未有的安全性挑战

 

在真实世界研究的场景下,数据获取的便利性在推动数据应用的同时所带来的安全性挑战主要来自以下2 个方面。

 

第一,对于隐私信息保护的重要性日益突出。数据获取的便利性在支撑研究应用的同时,也使隐私信息的获取变得更具可能性,且数据规模更大,其中的安全隐患自然毋庸多言。在真实世界研究的场景下,对于隐私信息的安全保护的重要程度,是以往经典研究过程都无法比拟的。

 

第二,由于数据规模扩大所带来的安全性新问题。就单一数据而言,其提供的信息往往是零散而有限的,即使信息涉及了某个个体的核心隐私信息,其安全性风险也会明确地针对相应的个体。而当信息具有足够的规模时,其安全风险并不简单的等于单个数据风险之和。当数据构成集合性“数据池”[15],特别是具备反映群体特征的能力时,其安全性信息所针对的对象则从单一个体扩展为相应群体。因此,群体的安全性权益需要给予重视,相应数据的安全属性需要给予重新的审视和深入的考虑。对于与健康相关的人口学、生理学、疾病特征、遗传特征等信息,由于关乎群体生命安全,这一点显得尤为重要。当研究可能涉及的信息已经能够反映特定区域内人群的健康特征、医疗服务特征时,数据所反映的群体对象的权益应当被应用过程所考虑和尊重。在这种情况下,对于单一个体,或许并不十分关键的安全信息很可能因为群体意义需要重新审视其安全性意义,并给予更高的重视。特别是当数据所反映的信息关乎国家、人种水平的健康相关信息时,其安全性特征与安全性考虑显然都需要给予高度的重视。

 

1.2 信息安全及数据安全法规的建立与完善

 

如何规范数据应用,保障数据安全?实际上这是伴随着数据科学和信息技术的发展,充分考虑数据安全工作的需要,不断前进、不断完善的过程。

 

早在1994 年国务院就颁布了《计算机信息系统安全保护条例》[16],该条例成为计算机信息系统安全保护的法律基础。1999年发布的GB 17859—1999《计算机信息系统安全保护等级划分准则》[17] 以及2007 年颁布的《信息安全等级保护管理办法》[18],都为信息安全等级保护工作指明了方向。

 

随着信息技术的飞速发展,信息安全工作的重要性日益凸显,在多部相关的法律法规中,都包含了有关个人隐私、数据安全工作的要求。其中,2016 年颁布的《网络安全法》[19]、2020 年颁布的《民法典》[20] 和《信息安全技术 个人信息安全规范》[21]、2021年颁布的《个人信息保护法》[22]都对隐私信息及其保护做出了明确的规范。2021 年颁布的《数据安全法》[13] 从法律的高度对数据安全给予了准确的定义也提出了数据安全工作的相关要求。

 

2021 年7 月,《深圳经济特区数据条例》[23] 发布,对个人数据、个人隐私数据、公共数据作出了明确定义,并对个人隐私数据以及公共数据的获取、存储与共享给予了规范。

 

在各应用领域中,针对信息安全、数据安全的规范性工作也在蓬勃开展中[24]。在健康医疗领域中,2018 年颁布的《国家健康医疗大数据标准、安全和服务管理办法(试行)》[25] 和《信息安全技术 健康医疗信息安全指南》征求意见稿[26] 都是对医疗信息安全工作的指导性文件。2019 年颁布的《人类遗传资源管理条例》[27]则对于健康医学领域中有关生物信息安全的相关要求给予了明确。

 

针对临床研究领域,有关研究数据安全的工作与要求体现在多个指导原则性文件当中。包括《药物临床试验质量管理规范》[28]、《医疗器械临床试验质量管理规范》[29]、《临床试验数据管理工作技术指南》[30] 等。随着真实世界研究的兴起,越来越多的临床研究过程借助真实世界研究的方法开展探索,验证临床目的。多部针对真实世界研究及真实世界数据的指导原则颁布:《真实世界证据支持药物研发与审评的指导原则(试行)》[31]、《真实世界数据用于医疗器械临床评价技术指导原则(试行)》[32]、《用于产生真实世界证据的真实世界数据指导原则(试行)》[33] 为真实世界研究与真实世界数据应用提供了指导性意见。通过以上文件,不仅从方法学角度对于真实世界数据的研究与应用提出了指导性意见,同时也针对数据来源特征、规模特征和质量特征,对于在真实世界研究场景下的数据质量和数据安全性考虑提出了相应的要求。

 

Part.2  临床真实世界数据可利用性与安全性的艰难平衡

 

真实世界数据因其来自真实临床过程的特点,使其拥有了更充分的代表性。在循证实践中,以其良好的外部真实性,得到了越来越广泛的应用[34-35] 和青睐。针对真实世界数据的特征、质量以及安全性属性开展的一系列研究,最终目的在于充分利用数据揭示医学规律、服务临床医疗。在数据利用过程中,由于健康信息的私密性以及规模数据的信息能力在真实世界数据应用中,确保数据安全成为合理应用的前提。信息技术为我们提供了利用真实世界数据的可能性,那么确保信息安全、数据安全则是每一个临床研究参与者都需要认真思考和履行的重要准则。

 

从充分利用的角度看,不加限制的应用是最充分的,但这样做的安全性风险是不可接受的。以电子病历为例,在完善的权限管理基础上,当研究者依据研究目的提出获取病例诊疗信息的申请时,依据信息安全的要求对应用需求进行审查和判断一定是必要的步骤。从安全的角度看,以绝对安全为出发点,对所有数据实施完全的保护,拒绝所有应用申请,不允许任何病例数据被应用于研究,则最大限度地实现了安全。但这也失去了应用这些数据的可能,违背了研究真实世界数据和证据的初衷。

 

《信息保护法》总则第一条明确了该法是“为了保护个人信息权益,规范个人信息处理活动,促进个人信息合理利用”,同时也指出“收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息”[22]。因此,在保障数据安全的前提下充分合理应用是一个颇具挑战的平衡点。需要以相关的法律法规和指导性文件为指引,结合各实际数据来源及应用场景的具体特征和要求,区分不同类型和规模数据的安全性要求,制定数据应用的分级管理方法,并配合完备的信息安全技术实现数据安全前提下的充分合理应用[36-37]。长期的探索和实践,并伴随临床研究和医疗数据、信息技术的发展,是不断前进的长期课题。

 

Part.3  完善信息安全策略促进数据的合理充分利用

 

信息安全是信息技术应用中的重要组成部分。在真实世界数据研究的多个应用环节,信息安全都必须给予足够重视,无论在数据管理过程[33] 还是数据治理过程中[38-39],数据安全都是工作的核心内容之一 [40-41]。

 

从技术角度看,信息安全工作包括物理安全、数据安全和应用安全3 个方面[36]。

 

3.1 物理安全

 

物理安全是数据信息处置的物理性过程。需要考虑存储设备及其运行过程可能的安全性需要。包括存储设施的物理性损坏、远程攻击、病毒防御、电磁环境失稳等可能的影响。物理安全的工作要点主要包括:容灾备份与数据恢复措施、互联网攻击防范措施、木马病毒防范措施、数据加密、数据源鉴别、读写权限控制等。以上工作要求通过技术人员的努力实现。对于临床研究者, 以上任务需要了解而非安全工作的重点。在工作安排中, 应充分考虑物理安全需求, 对设备的选择、网络安全设施与技术的应用和读写权限管理策略。

 

3.2 数据安全

 

数据安全是针对数据信息本身的安全性措施。因此,审慎考虑个人数据信息的隐私特征和关键性以及“数据池”所提供的信息所针对的主体特征和权益及其信息保护要求是工作的重点。通常针对不同属性的数据构建数据安全等级制度,对不同重要程度的数据制定相应的安全措施,给予分级管理。

 

首先,明确数据权益是数据安全工作的第一个要点。《深圳经济特区数据条例》[23] 中指出:“自然人对个人数据享有法律、行政法规及本条例规定的人格权益”“自然人、法人和非法人组织对其合法处理数据形成的数据产品和服务享有法律、行政法规及本条例规定的财产权益。但是,不得危害国家安全和公共利益,不得损害他人的合法权益”,并明确了数据应用的知情同意与撤回知情同意原则[22]。明确的数据权益与知情同意原则为数据安全提供了重要前提,也是数据安全工作的重要内容。人格权益明确了数据的所有权,医疗源数据的所有权归属于数据来源者;而当医疗源数据被用于真实世界数据研究之中,通过合理的处置,将成为适用于临床研究的真实世界数据组成部分。在合理的隐私信息保护前提下,所形成的研究数据集合则成为了具有应用价值的数据产品,也就拥有了相应的财产权。人格权益和财产权益的区分使得数据在充分尊重所有权的前提下实现了可利用性。与此同时,用益权[42] 的提出则为应用环节的权力归属和获益做出了重要的探索。

 

其次,数据安全等级划分是在获得数据安全保护前提下实现充分利用的重要环节。只有形成既充分满足安全性要求又能满足研究需要的数据安全等级制度才能为数据应用提供保障。因此,在法律法规的原则指引下,针对研究领域的具体数据类型、规模、属性形成有针对性的、有可操作性的、足够详细的等级划分体系,并针对不同安全等级的数据依据其重要性和实际意义形成相对应的安全性策略是真正落实数据安全工作的核心任务。很显然这是一个逐步完善并需要不断适应研究数据特征变化的长期任务。

 

此外,数据安全工作还需遵循全生命周期保护原则,并通过数据脱敏等技术手段尽可能在保护隐私信息安全的前提下,促进数据利用。所包括的工作要点有:数据脱敏、数据水印技术、数据加密传输技术等。

 

就临床研究而言,数据的可溯源性和个人信息的隐私保护须并重方可实现数据的可利用性与研究数据质量的基本要求。因此,数据匿名化、数据脱敏是重要的技术手段。通过匿名化可以有效地保护个人隐私信息[22],避免出现个人信息泄露的风险,同时也保留了作为研究数据对于群体特征的表征能力,满足临床研究的数据需求实现可利用性。但匿名化、脱敏过程也给数据的溯源带来了一定的困难。在临床研究中,医疗机构作为临床医疗和临床研究的实施主体,在信息化建设完备的基础上具备完成数据存储任务并实施数据脱敏和脱敏数据移交的能力。同时,医疗机构作为医疗服务的提供者,保护患者隐私同样责无旁贷。国家卫生健康委于2020 年12 月31 日颁布的《医疗卫生机构开展研究者发起的临床研究管理办法(征求意见稿)》[43] 中明确指出:“机构应当建立临床研究源数据的管理体系,实现集中统一存储,保障临床研究数据在收集、记录、修改、处理和保存过程中的真实性、完整性、规范性、保密性,确保数据可查询、可溯源。”因此,依托医院临床研究源数据管理体系实现研究数据的存储和利用是重要的真实世界研究数据安全解决途径[44-46]。从患者医疗信息安全角度看,数据被完整保存在医疗服务机构避免了隐私信息外泄的可能。同时,依托先进的信息技术实现数据脱敏,保障数据应用是可以实现的。更重要的是,临床研究数据的可溯源性是数据质量的重要原则和标准。依托医疗机构的数据存储和脱敏处理最大程度契合了临床研究数据真实性核查的工作要求,为源数据检查、充分体现研究数据的内部真实性提供了最为便捷的工作路径。

 

3.3 应用安全

 

应用安全是数据应用过程中所需要采取的安全性措施。通过对数据应用者使用权限的控制,在满足应用需要的情况下,减小数据安全风险,实现合理安全应用。其中,所涉及的工作策略主要包括:基于使用者角色特征建立访问权限管理体系;针对不同安全等级和数据类别制定访问权限管理要求;从研究目的和要素出发,建立最小化业务需求的访问规则;在保障应用需要的情况下,尽最大可能降低安全性风险;通过个人电脑加密措施等降低应用过程的数据风险。

 

Part.4  小   结

 

综上所述,在信息技术充分发展的今天,信息安全是所有应用领域都必须高度重视的问题。在真实世界研究场景下,数据的充分利用是以充分保障信息安全为前提的。首先,需要在明确数据所有权的前提下,以充分的知情同意为应用前提。其次,在法律法规不断完善的同时,需要构建针对特定应用范畴及数据特点的安全性等级分类与保护策略。最后,从物理安全、数据安全、应用安全各角度构建完整的信息安全保护体系,促进充分的数据利用。

 

分享到:

来源:中国食品药品监管杂志