数据湖存储规划 (赣鄱数据湖项目)

2022年国家卫生健康委员会等3部委联合印发《“十四五”全民健康信息化规划》,正式确立了以数据资源为关键要素,以新一代信息技术为有力支撑,以数字化、网络化、智能化促进行业转型升级的指导思想,提出了构建基于数据驱动的生态系统,强化区域数据汇聚应用的基本原则。 随着行业对大数据的应用与需求不断深化,能够提供全域原始数据存储利用能力的 数据湖 应运而生,数据湖只在数据利用时进行数据定向预处理,从而最大程度避免数据清洗汇总造成的信息损失,为数据深入分析与结果精准诠释提供了坚实基础。

本文目录

1.数据湖发展现状

2.数据湖的关键技术

3.数据湖技术的优势和局限性

数据湖发展现状

数据湖是一个存储大量不同类型数据的系统。 近年来,随着云计算和大数据分析技术的成熟发展,国外越来越多的企业开始应用数据湖技术管理自身的信息系统。国内数据湖的发展也在不断加速,许多企业正在通过构建数据湖优化数据管理、提高数据分析能力并实现数字化转型。当前,国内数据湖正呈现快速增长的趋势,一些市场研究公司预测,2020 年-2025 年数据湖市场的复合年增长率将超过20%,政策推动也成了数据湖发展的新引擎,当前国家政策鼓励企业在数据管理和分析方面投资,在技术与政策的推动下,国内的数据湖生态系统正在不断形成和完善。

数据湖的关键技术

数据湖的典型关键技术包含 数据存储技术 数据集成技术 等。

物理存储层为数据湖存储引擎提供不同的存储位置并可以灵活存储各种类型的数据。数据存储可根据数据类型的特点,分为结构化存储和非结构化存储。 对于具有明确结构和关系格式的数据,如HIS、医护人员管理等系统的数据,采用结构化存储;对于没有明确结构的数据,如非结构化的病案文书、医疗图像、视频、音频等,采用非结构化存储。同时数据湖的数据存储采用大规模并行处理数据库架构及高性能的列式存储与计算技术,利用多台服务器分担存储负荷,以此提高数据湖系统的数据可靠性、可用性与存取效率,为超大规模数据管理提供高性价比的通用计算平台。

数据集成负责将数据从源头采集到数据湖中,其主要目的是将来自不同系统和应用的数据整合到一个统一的数据湖中,方便用户进行查询、分析和挖掘。数据集成可分为离线集成和实时集成。 离线集成通常采用ETL 方式,定期将原始数据在某一时间点之前的存量数据进行抽取并加载至目标端。数据湖一般采用实时数据集成,即将数据从不同来源实时集成到一个中央位置,以进行更快速地分析和处理,使用户更及时地获取数据和做出实时决策,提高业务效率并优化资源利用,如通过 Flink CDC 技术进行数据的实时集成。图1展示了传统数据抽取和实时数据湖数据抽取的处理流程差异,传统模式链路过长,增量与全量割裂,实时数据湖数据抽取采用了流式数据处理,整体链路较短。

医疗机构对数据的实时性要求较高,为了保证湖内数据的高可用性,更多会采用实时数据集成这一关键技术。 实时数据集成的关键点首先是对数据源进行数据库模式定义语言(data definition language, DDL)操作的自动同步,可实现复杂业务下的无人值守,大大提升了集成效率与数据时效性。 其次,针对医疗机构中存在的大量半结构化数据进行优化。另外,需进行微批聚合将数据进行小批量聚合后以批的形式入湖,保障数据秒级入湖,大大提高数据插入性能。

数据池和数据湖,开封数据湖项目

图1 传统数据抽取与实时数据湖数据抽取比较示意

数据湖可以使用分布式并行数据库架构,具备高性能、高可用、高扩展特性,为超大规模数据管理提供高性价比的通用计算平台。

数据湖技术的优势和局限性

数据湖不像传统的数据仓库需提前定义出详细的数据模型和结构,它只需要充分利用强大的数据存储和处理能力来支持存储各种形式和类型的数据,并在需要时进行分析和处理。 在数据湖中,数据可以采用原始的形式存储,或者按照不同的数据集、数据域、业务维度进行组织和分类。 这样可以为下游方提供灵活的数据访问方式,并适应不同的业务需要。 可以通过数据分类、数据标签、元数据管理等方式构建数据湖中的数据模型,建立数据标准规范体系、安全保障体系和运行维护体系以保障对数据的管理和使用。

然而,数据湖技术也存在一些局限性:①数据湖中的数据通常是全量的,这意味着在使用数据前需要耗费大量的时间和资源进行数据的梳理与入湖,存在可用性问题;②数据湖的数据通常是分布式存储的,然而分布式系统通常具有较高的复杂性和维护成本,存在管理和维护的问题;③数据湖中的数据存储和加载通常是动态的,并且往往需要进行复杂的计算和处理,这可能导致数据的性能下降和数据存储成本的增加。但随着数据湖技术的不断发展,可能会打破相关局限。

目前,大数据技术在医疗信息领域已经逐步走入成熟阶段,但大数据与人工智能、隐私计算、区块链等新技术的交叉融合,目前尚处于起步阶段。 在未来,可以重点考虑数据湖如何与新技术进行有效整合 ,推动数据湖技术的发展变革,打破数据湖技术的局限性,让数据更易用、范围更广阔、治理更智能。

END

文章来源 | 张灵,陶涛,李谨江,王毅,刘翰腾,余俊蓉,张武军.数据湖技术在智慧医院建设中的应用与发展[J].中国数字医学,2023,18(06):1-6.