一、数据智能技术体系概览
数据智能技术体系由数据技术及人工智能技术两部分组成:数据技术旨在从各种类型的数据中快速获取有价值信息,涵盖数据全生命周期的各环节;人工智能技术是模拟人类智能行为的技术,涵盖自然语言处理、计算机视觉、智能推荐等技术方向。
人工智能技术与数据技术相辅相成。在模型训练前的数据准备环节,数据的处理离不开各类高性能存储及大数据平台的支持;在模型训练环节,各类数据平台为人工智能领域各类计算框架提供算力支撑;在应用开发环节,数据应用为各类人工智能模型提供了广阔的应用场景及用户数据,助力模型应用效果的进一步提升。
图1 数据智能技术体系概览
伴随数据与人工智能技术的不断融合,逐渐演化出“5+3”的技术体系。其中,数据技术分为数据汇聚、数据存储与计算、数据管理、数据开发与应用、数据安全五大部分;人工智能技术分为数据准备、模型训练与推理、模型开发与应用三大阶段。
在应用需求的驱动下,数据与智能进一步融合创新。一方面,模型的生产需要高质量的数据资源以及更高效的数据底座支撑,另一方面人工智能技术的最新成果能够进一步赋能数据技术,提升数据处理效率和数据应用效果。由此,逐渐衍生出数据供给、多模数据存储与治理、数据智能平台、智能化数据安全技术等一系列新兴技术。
二、数据智能关键技术发展态势
1.数据供给技术赋能模型训练
高质量的数据供给在人工智能模型的训练中扮演着至关重要的角色,直接影响模型的最终效果。高质量的数据可以提供准确的训练信号,帮助模型学习到有效的特征和模式,避免过拟合现象,增强模型稳定性。随着各行业不断深挖数据要素价值,在数据供给领域,通过数据标注、合成数据提供高质量数据已经成为赋能模型训练的两大关键技术。
数据标注通过对原始数据进行分类、识别、标记和注释,为模型训练提供结构化输入。通过该过程,数据的含义以能够被机器接收处理的形式表征,从而为模型训练提供结构化和有意义的输入,也是提升训练数据质量的关键环节。
合成数据则是通过专用数学模型或算法进行数据生成的过程,通常可反映出目标原始数据特征,同时具备隐私保护、规模扩展、数据模拟等能力,可有效解决数据规模和质量不足等问题。
一是存在数据开放程度有限、共享意愿低等问题,数据“不能用”。当前很多数据缺乏有效机制保障其流通性和可访问性,易形成数据孤岛,同时,公共数据开放和利用程度有限,未能充分发挥作用,造成企业难以获得高质量数据。
二是数据供给规模及效率有待提升,数据“不够用”。当前高质量数据供给难以满足模型训练和分析决策需求,数据供给质量低,整合清洗环节依赖人工处理,存在效率瓶颈。
三是数据标准化及互操作性不足,数据“不好用”。数据格式、接口、存储等方面的标准化程度不足,导致数据整合难度高,互操作性差,增加数据处理成本。
伴随企业数智化转型的需求,数据供给技术将呈现如下趋势:
一是合成数据应用价值更加显著。在企业内风险预测、用户需求分析、模型训练等更多场景得到应用,满足企业数智化转型对高质量数据、高价值数据、多模态数据的需求。
二是数据标注向自动化、智能化演进。未来数据标注将更多依赖自动化、智能化工具来完成数据预处理过程,提供初步标注结果,再由人工进行校正和细化以提高效率。
三是数据质量问题将成为关注重点。通过建立严格的数据采集标准和流程,确保供给数据具有高质量、高相关性和高准确性。
2.多模态数据存储与治理支撑模型高质量训练
高质量、多维度、大规模的数据是支撑大模型训练、应用的关键基础。当训练数据存在异常时,模型训练输出会产生偏见和错误,因此高质量数据对大模型训练必不可少,不同模态数据的共同作用还能有效提升模型的使用效果。一方面,将同一场景的图片、文本、音视频、知识库等同时作为训练数据,能够增强大模型的理解能力;另一方面,当基于文本数据的训练出现偏差时,其他模态数据可以辅助大模型进行错误纠正,从而减少“幻觉”现象。因此,如何对多模态数据进行高效存储、计算、治理,已逐渐成为数据智能领域的重要技术方向。
当前多模态数据的存储治理仍存在以下突出问题:
一是多模态数据整合处理难度大,读取效率需提升。多模态数据包括结构化、非结构化及半结构化数据,来源多样,格式各异,整合难度大。同时,模型训练需频繁读取海量数据,对缓存加速能力提出更高要求。
二是面向模型训练,数据质量治理亟需前置。为保证训练数据集的准确、合规、完整,数据质量治理应在数据收集阶段同步进行。但目前的数据治理流程通常是在应用过程中发现问题,造成数据治理环节后置,难以满足需求。
未来,多模数据存储与治理领域呈现出三大趋势:
一是支撑多模数据的高并发高吞吐存取需求。底层存储将更注重性能优化与扩展,支持统一管理多个命名空间,以解决多中心集群数据统一存储与共享问题;兼容多种存储协议;支持分布式缓存,持续提升存储集群性能。
二是构建多模态数据标准,促进数据的整合、共享、交换。通过构建多层次、可扩展的多模态数据标准体系,有效解决多模态数据不均衡、难对齐、存在语义鸿沟等问题,降低多模态数据的整合难度,减少数据转换和清洗工作量,助力多模态数据的有效利用。
三是依托各类技术工具实现数据质量治理环节前置。国外厂商已经开始基于多模态元数据和多模态数据标准,制定多模态数据质量检测指标并构建检测任务的技术实践,在数据汇聚阶段保障数据质量。未来,数据质量治理环节前置将成为提升模型训练效率、增强数据融合水平的关键。
3.数据智能平台支撑企业数据及模型开发
数据智能平台作为企业数智化能力构建的重要基础,为上层应用、决策提供坚实的数据与算力支撑。一方面,人工智能技术将数据分析过程自动化,快速识别数据中的模式和趋势;另一方面,数据平台为上层模型提供更强的算力及更高质量的数据,推动模型开发范式向以数据为中心的模式转变。
一是异构计算资源高效纳管能力有待提升。模型训练需要大量CPU、GPU等异构计算资源的支撑,如何在同一集群中高效纳管这些资源,进行自动化部署、监控、调度和优化,满足不同规模企业的模型训练需求成为重要问题。
二是数据平台向量化计算能力有待增强。向量化计算通过将基于循环的矩阵运算转化为整体矩阵来提升模型训练的计算性能。但当前计算框架对向量化计算的支持有限,亟需开发新的编程模型和架构来提升能力。
三是运维能力的智能化程度有待加深。海量异构数据的计算加速为平台运维带来巨大压力,当前运维体系故障自动诊断的准确性和时效性有待提高,亟需智能化技术的深度应用。
未来,数据智能平台发展主要有以下三大趋势:
一是利用云化、智能化、多集群等技术实现平台算力与成本的平衡。通过智能化技术实现任务的自动调度与资源的智能分配,提升资源利用率和系统性能。同时,伴随多云和多地部署的趋势,分布式调度系统将更加关注跨集群的任务与资源管理,进一步提升整体效能。
二是模型训练推理需求推动向量化计算技术进一步集成发展。向量化计算是提升模型训练与推理性能的重要手段,数据智能平台将通过新的编程模型和架构,提升向量化计算性能。
三是利用人工智能技术增强数据智能平台运维能力。数据智能平台可通过实时数据分析,及时发现异常并自动给出解决方案,减少人工干预与诊断时间。同时,能够构建预测模型,自动调整引擎和任务参数,实现系统性能和效率的最大化。
4.数据流通技术支撑企业安全高效汇聚利用外部数据
在企业持续推进自身数据智能化的过程中,发现、获取和利用大规模、高质量和多样性的数据是其中关键。部分场景中单一企业的数据规模和多样性不足,需要融合利用外部数据以增强模型能力,因此,数据流通技术成为实现数据智能的核心技术之一,除了需要关注数据流通过程中数据的可控与安全,也需要保证数据流通的可用性和稳定性。
当前数据流通技术仍存在以下问题:
一是部分场景中仍面临安全挑战。当前隐私计算产品以“半诚实模型”假设为前提,但实际使用中参与方可能违反合约和诚信要求,出现伴生攻击、数据投毒等行为。同时,大模型的复杂性也为基于隐私计算的联合训练和推理算带来新的安全挑战。当前大部分数据流通产品的身份管理、使用策略设置等功能不完善,可能造成流通过程中的信息泄露。
二是大规模数据计算的性能不足。隐私计算中的密文计算增加了额外的计算和通信负载,通信带宽的限制会影响数据交互性能。目前技术主要支持结构化数据,对大规模、多模态数据的计算支持仍需提升。
为更高效支持企业获取和利用外部数据,数据流通技术未来主要有以下趋势:
一是优化算法协议框架以支撑数据高效流通。业内持续进行联邦学习算法优化,产出了模型压缩、本地多轮迭代、异步协调策略等方案,并进一步探索联邦大模型的算法框架。同时,基于多方安全计算的大模型安全推理也形成了相关成果,这些技术方案有效降低由通信数据量和大规模模型参数等因素带来的性能影响,有效推动了隐私计算技术在复杂模型训练和推理场景下的落地。
二是多技术融合实现可信数据流通。隐私计算各技术路线有性能和安全性的不同侧重,多技术融合、软硬件结合是隐私计算突破单点技术瓶颈的有效方式。同时,隐私计算也将结合数据使用控制、区块链等技术形成更加可信安全的数据流通解决方案,保证在多主体参与的数据流通全过程可控安全。
5.智能化技术赋能数据安全产品升级换代
数据安全产品的智能化已在多个领域得到应用,例如敏感数据识别、数据防泄露等,通过结合人工智能算法,实现对数据的智能保护和风险预警,从而能够更准确地检测到潜在的安全威胁和异常行为,自动响应安全事件,实现主动防护,为企业提供更全面高效的安全保护。
数据安全产品的智能化已取得了一定的进展,但仍存在一些问题需要解决。
一是智能化技术的准确性和可靠性仍需进一步提高。由于数据的复杂性和多变性,一些智能化算法可能出现误判或漏判情况,导致数据安全风险无法及时发现和处理。
二是智能化技术的可解释性和透明性不足。部分智能化算法在处理数据时采用黑箱操作,导致用户无法理解算法的决策过程,增加了数据安全的不确定性和风险。
三是智能化技术的应用范围和深度仍需进一步拓展。目前智能化技术主要应用于特定的数据安全场景,如敏感数据识别、数据防泄露等,但在数据安全治理、数据安全风险评估等领域的应用相对较少。
未来,智能化数据安全产品将呈现出两点趋势:
一是自动化、智能化、集成化将成为未来发展方向。智能化技术将进一步与数据安全产品结合,提升对复杂威胁的识别、预测和响应能力,利用算法进行主动监测并分析潜在的安全威胁,实现风险的早期发现和预防,为用户提供更全面和高效的安全保护。
二是智能化技术将与其他安全防护手段相结合,形成更加完善的数据安全保护体系。智能化技术将与加密技术、访问控制等技术结合,同时融合服务,为不同行业和场景提供灵活的安全解决方案,实现全方位的数据保护。
6.生成式大模型驱动生产力跃升
生成式大模型指具有大规模参数和复杂计算结构的生成式机器学习模型,通常基于深度神经网络模型,拥有数十亿乃至数千亿参数,其设计目的是为了提高模型的表达能力和预测能力,被广泛应用在自然语言处理、计算机视觉、语音识别、推荐系统等场景。
图2 部分生成式大模型发布情况统计
大模型与小模型相比,拥有更好的复杂任务处理能力和较强的迁移学习能力,但相应需要大量计算资源进行训练和推理,训练时间长、可解释性较差。小模型的参数规模小、训练效率高、可以快速迭代、部署灵活,在资源受限的环境和一些特定任务场景下表现超越大模型,但小模型处理复杂任务的能力有限,迁移学习能力弱。因此,选择使用大模型还是小模型,需根据具体的应用场景、资源可用性、性能需求和预算等因素综合考虑。
生成式大模型的发展促进了各行业数据智能落地实践,但也带来了两方面问题:
一是生成式大模型可能生成虚假、有害的内容。受限于语料和模型算法等因素的影响,部分模型易出现生成虚假内容,导致输出错误观点,甚至被诱导输出伪造信息和有害内容。
二是生成式大模型存在数据安全及隐私问题。模型训练需要大量数据,其中可能包含敏感和隐私信息,存在数据泄露风险。同时,部分用户在使用过程中,可能通过特定方式获取隐私信息。
未来,生成式大模型发展呈现出三大方向:
一是通过多模态数据提升模型训练效果。多模态生成式模型允许用户基于文本、音频、图像和视频去匹配内容,以提示和生成新内容。通过将多模态数据与算法结合,提升大模型训练效果,减少“幻觉”现象。
二是视频生成大模型成为生成式模型发展的前沿方向。OpenAI发布的文生视频模型SORA,将视频生成时长从秒级大幅提升至一分钟,并在分辨率、画面真实度、时序一致性等方面都有显著提升。SORA具备理解世界的基本物理常识并进行预测的能力,标志着智能技术发展进入新阶段。未来,视频大模型将在数字孪生、虚拟现实、增强现实、内容创作等场景具有广阔的发展空间。
三是垂直领域大模型将成为主战场。通用大模型拥有广泛的适用性,具备跨域学习能力,但存在资源消耗大,特定领域任务表现较差等问题。专业领域大模型可以根据特定行业的需求进行定制化开发、优化,能够更准确地理解和处理特定领域任务,在ToB市场拥有广泛的应用前景。当前,金融、电信、能源等行业已经开始大模型应用实践的探索,未来,专业大模型将成为生成式模型发展的重要方向。
7.大模型赋能的数据智能应用促进数据智能价值释放
数据智能应用技术包括数据可视化、数据分析、数据挖掘、机器学习等数据智能技术,旨在从数据中提取有价值的信息和知识,从而驱动决策,赋能业务实践。数据智能应用技术同具体业务场景关联性强,存在层次多、差异大、需求多元、形式复杂的特征。近年来,随着以大语言模型为代表的人工智能技术快速发展,基于大模型的对话式BI、数据分析智能体等新模式纷纷涌现,数据智能应用的发展迈入新阶段。
当前,数据智能应用技术仍面临着三大问题:
一是数据智能应用技术的门槛仍然较高。技术上融合了数据科学、统计学、计算机科学、领域知识等多方面专业知识,部分专业的数据分析工具学习使用门槛较高,企业在实际应用过程中存在一定的适应难度。
二是技术和业务的脱节仍然存在。数据智能技术工具同业务需求脱节的现象普遍存在,导致数据智能相关工作难以提供及时、准确的业务洞察。少数重点场景如营销、风控等在一些头部企业能够深度嵌入业务,但在其他大部分企业场景中仍难实现。
三是数据智能算法的可解释性有待提升。数据智能算法的可解释性关系到人们对算法的信任、算法的公平性、算法的安全性等多个方面。许多数据智能算法因其高度复杂和非线性的特性,往往被视为“黑箱”,在一些基于大模型的数据智能应用中普遍存在。
未来,数据智能应用技术发展呈现出三大趋势:
一是“大模型+数据智能应用”将成为各方数据智能技术能力建设的重点。随着大模型技术快速发展,基于大模型的智能增强分析、智能问答、智能检索和知识图谱等工具,成为企业建设的重点。目前推出的各类大模型+数据智能应用工具,在稳定性、灵活性、专业性和多模态数据处理能力等方面正在快速提升,未来发展空间广阔。
二是数据智能技术将为大模型的落地提供更高效支撑。数据智能应用技术如何赋能大模型也成为关注重点,基于知识图谱、知识库的检索增强生成技术,显著提升了大模型生成内容的准确性,成为商业大模型应用的主要实现路径。
三是数据智能技术正在同业务深度融合。数据智能技术与业务深度融合是企业提高竞争力、优化决策过程和增强客户体验的关键。在数字营销、智能风控、数字化运营、数智财务等重点场景中,数据智能技术的应用正在不断深化。
三、数据智能技术未来展望
随着数据与人工智能技术的不断融合,数据智能技术对数据进行处理和分析能力将持续提升,实现更高效、精准的数据挖掘和应用,推动数据要素价值进一步释放。数据智能技术的未来发展预示着一个多维度和深层次的融合创新时代,在数智化转型的过程中,数据智能将更深入地渗透到各个行业和领域,应用场景将进一步拓宽。通过优化业务流程、分析业务问题、洞察业务趋势,数据智能将为企业和组织带来更高的效率和更精准的决策支持。
【本文节选自大数据技术标准推进委员会于“2024年数据智能大会”上发布的《数据智能白皮书(2024年)》。
报告介绍及全文下载链接如下:
数据智能里程碑!《数据智能白皮书(2024年)》正式发布】
中国信息通信研究院(简称“中国信通院”)从2022年开始启动企业数智化能力成熟度模型(EDMM)标准体系工作,通过厘清企业进行数智化转型所需的关键能力框架,提供可对标的能力水平成熟度模型,助力企业进一步完善和提升相应能力,推动业务创新和管理优化。EDMM标准体系包括数据智能基础设施、数据智能中台、数据智能应用和长效机制四个方面,旨在为企业数智化转型提供全方位的能力支持和组织保障。
2024年下半年度企业数智化能力成熟度模型(EDMM)系列评估正式启动,欢迎感兴趣的企业联系咨询。
联系人:
王老师
于老师
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-gc/36246.html