人工智能时代,数据库技术创新提速赋能

2024-08-13
来源:人民邮电报
分享

  数据库是用于存储、管理和检索数据的系统,数据库技术在现代计算机科学和信息技术中扮演着至关重要的角色,用于满足各种应用程序和业务需求。经过大型机、小型机、局域网、互联网、移动互联网等数十年的技术迭代与更新,数据库技术在数据结构、部署方式、应用场景等方面形成了较为成熟的理论基础与行业实践。

  以人工智能为代表的新一代信息技术快速创新应用,随之而来的是数据处理需求的爆发式增长以及数据类型的多元化。面向AI时代的数据管理要求,传统的数据库技术已经显露出一些局限性,例如,存储能力、查询效率以及数据处理速度等方面的挑战。因此,数据库结合新时期技术发展形势,持续开展数据结构、部署方式、应用场景三个维度创新。一是新数据结构,随着AI等技术的蓬勃发展,对多样化数据类型的分析提出了更高要求,向量数据库、多模数据库等弥补了现有数据模型表达能力的不足。二是新部署方式,计算机软硬件、网络等技术的进步,为数据库提供了更加先进的平台和生态环境,内存数据库、图形处理器数据库等借助新硬件平台提升数据库可用性、可靠性。三是新应用场景,AI技术加速赋能数据库查询、管理等,HTAP数据库事务与分析性能快速提升,应用推广持续深化。

  总体而言,新一代数据库技术的多维度创新不仅深刻影响了传统数据行业,还将催生一系列以AI应用需求为牵引的新行业、新赛道,为经济社会数据管理、智能决策等领域带来更加高效、先进的赋能效用,为传统行业数字化、智能化水平的提升提供更加强大的底层技术支持。

  数据库技术创新的主要方向

  新数据类型,AI大规模数据管理倒逼向量数据库发展。目前,传统关系、非关系数据库无法有效满足AI训练所需的数据存储与管理需要,特别是AI大模型底层向量数据的存储与管理。在图片、视频、音频等非结构化数据经过深度学习向量化表示后,向量数据的维度将达到数千、上万维度,使用传统的关系型数据库会造成表臃肿、分片复杂等问题,而键值等非关系型数据库无法执行数据检索、近邻算法等。因此,向量数据库正是为了响应AI大模型时代海量非结构化数据向量化的超大规模检索、匹配等需要,应运而生的一种数据库产品类型。向量数据库具备数据库基本的增查改删操作,更重要的是也具备了针对向量数据的快速相似性搜索能力,能够支持文本、图像、音视频等数据嵌入处理,具备百亿条以上的超大规模数据管理能力,支持多种面向向量的最近邻搜索算法,同时基于云化部署方式能够实现更加灵活的扩展。伴随未来优质大模型向更多领域渗透,向量数据库产业规模与创新热度将持续高涨,目前向量数据库将技术孵化与商业化同步开展,头部企业开放了一系列商业化/托管服务,传统数据库产品也在抓紧新增对向量数据模型的支持。

  新部署方式,内存数据库和GPU数据库加快发展。在内存数据库方面,内存数据库优化面向不同容量、不同成本的混合内容,以及大容量存储上的存储、综合查询等性能,如较小但访问频繁的数存储在动态随机存取存储器上,稍大且访问时延相对较低的数存储在存储级内存上;提供异构存储平台间的数据动态同步以及同固态硬盘/混合硬盘间的异步持久化存储,以适配DRAM、SCM以及SSD等异构内存平台。但由于SCM相对于SSD的成本较高,而性能相较DRAM提升有限,极大制约了SCM的推广,目前异构内存数据技术创新热度有所下降。在GPU数据库方面,当前GPU数据库主要包括GPU加速型数据库和GPU内存型数据库,其中前者将GPU作为CPU的协处理器/加速器,数据通过外围组件快速互联从CPU送到GPU计算,性能瓶颈主要是GPU显存以及CPU-GPU间输入/输出通道。后者直接将GPU内存数据库看作GPU端的内存数据库,该类系统将数据全部驻留内存,以发挥GPU的全部潜在性能,提高数据处理速度。短期内两条技术路线将结合实际场景需要并存,GPU内存型数据库是研究的重点方向。

  新应用场景,混合事务应用持续优化。HTAP产品创新活跃,当前主流实现OLAP与OLTP并行方式的是行存储、列存储并行HTAP,该架构让不同数据结构的存储引擎分别负责事务处理和分析,存储引擎在物理上隔离(分布式),并遵从一定的协议(如Raft)在引擎之间进行实时复制,在一个系统内实现HTAP,目前SAP HANA、Oracle Times Ten、HybridDB、TiDB等全球主流产品采用此种技术路线。从长期来看,HTAP产品创新聚焦两个方向,一是持续优化当前架构技术,优化数据组织方式、数据同步方式等,提升查询分析性能;二是底层存储引擎的一体化,即使用一套系统和单一存储引擎实现HTAP,但目前理论研究层面性能实现效果不佳,仍处于早期。

  AI与数据库融合创新方向和实践探索

  得益于AI的快速迭代、自我优化、动态调整等特性,数据库技术正在加速与AI技术在数据模型、数据管理、数据应用等方面实现全方位融合,持续提升数据库产品性能、易用性、可维护性,同时也为AI的海量数据查询管理、模型训练推理等提供更加高效的支撑。

  因此,当前数据库技术与AI技术融合能够促进两种技术的协同创新与能力提升,具体体现在两个方面。

  一方面,AI技术赋能数据库。例如,传统的经验数据库优化技术(如成本估算、连接顺序选择、旋钮调整、索引和视图顾问等)基于经验方法和规范,需要人工参与调整和维护数据库。因此,现有的经验技术无法满足大规模数据库实例、各种应用程序和多样化用户的高性能需求。基于AI技术可以有效解决类似问题,如强化学习可以用于优化Join操作的顺序选择、深度强化学习可以用于自动配置数据库参数等。

  另一方面,数据库技术赋能AI。在许多实际应用中,AI很难部署,因为它需要开发人员编写复杂的代码和训练复杂的模型。运用新型数据库技术能够降低使用AI模型的复杂性,加速AI算法,并在数据库内提供AI能力。例如,数据库技术可用于提高数据质量(如数据发现、数据清理、数据集成、数据标记和数据沿袭等)、自动选择适当的模型、推荐模型参数和加速模型推理等。

  全球数据库产业创新发展态势向好

  全球数据库市场规模保持高速增长,2022年市场规模突破910亿美元。数据库云化部署具有高扩展、高可用、低成本等优势,2022年全球云数据库市场占比首次突破50%。2022年,全球数据库市场规模增长中的98%由云数据库市场增长贡献。从数据库产品类型来看,关系型数据库产品成熟,占据市场应用绝对主导地位。伴随多种类型数据爆发式增长,各种创新业务场景涌现,非关系型数据库应用增长较快。全球数据库市场格局稳定,2018年—2022年全球Top5企业市场份额占比均超过65%,其中云服务巨头增速显著高于传统数据库服务商,市场格局有望在云服务巨头牵引下,形成新的竞争格局。

  中国数据库市场保持较快增长。在关系型数据库产品方面,2022年,中国关系型数据库软件市场规模为34.3亿美元,同比增长23.9%。其中,公有云关系型数据库规模为20.8亿美元,同比增长34.8%;本地部署关系型数据库规模为14.6亿美元,同比增长10.3%,云化产品已成为市场增长的主要驱动力。在非关系型产品方面,中国本土产品结合自身业务发展需求或市场应用需求,采用开源或垂直领域商业化路径,打造了一批创新型产品,逐步增强市场影响力。

  从重点数据库产品创新方向来看,国产数据库产品线布局完整,市场竞争力稳步提升。在向量数据库方面,以Milvus、Vsearch等为代表的国产向量数据库产品正加速部署应用,并同生态伙伴产品、自身业务产品等深度融合,提升大模型训练推理效率。在HTAP数据库方面,TiDB、AnalyticDB等产品创新十分活跃,在部分事务处理、数据分析性能方面能够替代传统产品,竞争力不断提升。此外,数据库应用配套的数据传输、数据管理、数据库备份等工具逐步成熟,能够实现数据迁移/评估、同步、管理、安全审计、备份恢复等全流程服务。2022年,在国内市场中本土数据库产品市场占比首次突破50%,其中主流关系型数据库市场稳步实现替代,市场占比达40%,比2021年提高2个百分点;新型数据库发展占据市场先机,市场占比超八成。

  从中国技术布局与应用建设需求来看,建议重点从几个方向推动相关领域创新布局:一是持续推进面向重点行业、核心业务的关系型数据库产品的性能、稳定性升级,优化完善技术开发、运维工具、迁移工具、应用接口、语句兼容创新等配套生态产品,持续提升产品矩阵竞争力;二是持续投入创新型产品研发,如向量数据库、HTAP数据库等产品,围绕AI等新应用需求,相关数据模型、软硬件等技术创新活跃,中国应聚焦数据库前沿领域,发展新型数据库产品,布局数据库新赛道,特别是支撑AI应用的数据库产品。

  (作者:硕天鸾 董一民 单位:中国信息通信研究院信息化与工业化融合研究所沉浸技术与应用研究部)