近年来,数据与智能技术不断融合,“数据智能”的概念应运而生。
近日,基于长期对产业的研究与观察,充分结合行业一线专家的观点意见,中国信息通信研究院云计算与大数据研究所所长何宝宏发布了“2024数据智能十大关键词”,分别为高质量数据供给、面向人工智能的数据治理、数据资源估值与入表、数据智能平台、检索增强生成(RAG)、“大模型+”、营销数智化、数据安全风险评估、数据安全运营和数智素养。
“智能技术本质上是对数据价值进行深度挖掘和应用的一种方式。”何宝宏表示,这次发布的数据智能十大关键词,代表了数据智能产业的当前热点和发展方向。
当前,人工智能正在引发新一轮产业变革,成为激活数据要素价值、发挥数据要素乘数效应的重要引擎,人工智能的突破得益于高质量数据。
尤其是通用人工智能的发展,使得数据与算法的边界更加模糊,数据嵌入到了模型的生成中,数据质量与安全直接影响模型结果。何宝宏认为,通过对人工智能所需数据进行治理,可以有效提升人工智能应用效果与研发效率,提升安全与隐私保护水位。
与此同时,如何推进大模型在各行业、各业务场景落地,是各方普遍关注的问题。落地成本高,可控性、精确性差是大模型在B端落地普遍存在的痛点,而检索增强生成,也就是RAG技术为此提供了很好的解决方案。
据何宝宏介绍,RAG是一种通过数据检索来改进模型内容生成效果的技术方案,通过引入来自外挂向量数据库、知识图谱或网络的数据,对原有问题进行补充增强后再输入给大模型,有效缓解大模型的幻觉问题,提高知识更新速度,增强内容生成的多样性和可追溯性。现阶段RAG技术已融入最常见的大模型应用架构,大大降低企业在大模型训练、微调方面的资源投入,为企业大模型落地提供了更加稳定、可控、低成本的思路。
与此同时,随着数据检索技术不断突破,向量、图等多模态数据也被纳入可检索范围,进一步提升了RAG的性能和适用场景。“总体来说,RAG技术仍有较大的发展空间,国内外各大厂商纷纷布局相关产品。”何宝宏进一步透露,中国信通院云大所也响应各方诉求,牵头编制了《检索增强生成技术要求》标准,腾讯云、中电信人工智能等企业参与了首批测试。另外,为进一步推动大模型赋能的数智应用实践落地,中国信通院已推出“大模型+数智应用”系列评估测试,覆盖商务智能、知识图谱、智能问答、知识中台、营销平台、RAG等方向。