柏睿数据易水寒：算力时代的人工智能应用创新实践_金融_经济

5月19日，由北京市中小企业公共服务平台、北京市软件和信息服务业协会主办的「数字经济生态共建交流会之AI应用创新实践研讨」在线上如期开展。来自柏睿数据、亚信科技、中科创达、云从科技的技术专家，共探人工智能应用创新实践。

本文整理自柏睿数据人工智能产品总监易水寒的《算力时代的人工智能应用创新》主题分享。

大数据+澎湃算力，为人工智能的蓬勃发展带来了机遇

2016年3月，一场围棋人机大战万众瞩目，对战双方分别是人工智能围棋手AlphaGo和人类棋手李世石。李世石首场胜利后，便连输3场，最终败给了人工智能。因此，有人称2016年为人工智能元年，2017年是人工智能的落地之年。此时，大众对人工智能的认知达到了前所未有的高度，传统产业对智能转型的热情也空前高涨。然而事实上，当前主流的人工智能技术中所采用的算法，几乎都是上世纪八九十年代或更早被提出的。以AlphaGo为例，其采用的强化学习、深度学习、蒙特卡洛搜索树都是上世纪被提出来的。

人工智能发展跌宕起伏，在上世纪70年代至90年代，甚至经历了漫长的黑暗期，多项研究进展缓慢。我们不禁要问：为什么在今天，人工智能又开始蓬勃发展起来了呢？

过去的十几年间，随着互联网的发展，社会生活越来越多地依托于互联网上展开，互联网因此积累了前所未有的大量的实体和用户数据。在大规模数据集和大数据计算的支撑下，使得最终训练得到的模型足够复杂，进而可以有效地逼近很多困难问题的决策边界，使得人工智能，尤其是深度神经网络，在精准推荐、语音识别、图像处理、自然语言处理以及金融、教育、物流、制造等方面都取得了长足的进步，创造了巨大的社会价值和商业利益。可以说，大数据+澎湃算力为人工智能的蓬勃发展带来了机遇。

算法、算力和数据的衔接，成为实现人工智能应用的必由之路

几乎各行各业都在探索或积极部署人工智能，不管人工智能各种用例的差异有多大，它们都有一个共同点：数据。人工智能应用能够感知、推理、行动和调整。这是通过从规模庞大、种类多元的数据集中学习获得的能力。

从原始数据到数据准备、模型训练到模型部署的过程中，需要使用到许多不同的技术，如下图所示。

同时，实现一个人工智能应用的过程，需要众多不同角色的参与，包括数据工程师、算法工程师、运维人员与应用开发人员。

首先，在提升人工智能模型准确率的时候，数据质量是其中重要的一环。如果没有好的数据质量，无论采用多么先进的算法技术，最终只能是garbage in, garbage out。即便算法工程师处理好了数据，在离线测试中产生了高准确率的模型，也可能在部署上线的过程中，由于和数据工程师使用技术的不同，带来对数据概念理解的偏差，进而导致部署上线的数据和训练使用的数据概念不同，使得最终上线时模型准确率不及预期。

因此，在涉及技术非常多、涉及人员非常多，而且每个人员使用的技术又不同的情况下，如何让与数据打交道的人们协调工作，如何将算法、算力和数据衔接起来，成为实现人工智能应用的关键问题。

为此，柏睿数据研发推出人工智能产品体系架构，贯穿数据存储、数据分析处理、机器学习建模到上层应用开发全生命周期。该架构基于柏睿数据在2019年全球首推的“库内人工智能《AI-in-Database库内人工智能》标准”，这也是最早将“AI”技术与“大数据技术”进行原生结合的国际标准。

柏睿数据分布式内存数据库RapidsDB

RapidsDB是柏睿数据全国产自主研发、具有完整独立知识产权、基于全内存架构的分布式关系性型数据库，提供金融级数据持久化、数据安全性、系统高可用性，高于传统磁盘架构数据库100+倍数据读写访问和分析性能，适用于数据量大、实时性要求高的应用场景。

而RapidsDB丰富的数据类型和函数支持，也使得库内人工智能特征构造和模型训练成为可能。

RapidsPY

RapidsPY是在RapidsDB之上实现pandas Dataframe API的一个Python库, 让用户可以在RapidsDB上使用pandas对大数据进行处理和分析。依靠RapidsPY，用户无需将数据从数据库迁移到python中，便可以直接利用python的pandas接口来对存储于分布式数据库的数据进行处理。

柏睿数据库内工智能算法库ParallelAI

ParallelAI 是一种R/Python的扩展软件包，可通过R/Python与自研计算引擎实现交互，将R/python中的命令提交到引擎进行集群资源分布式计算，可支持多类数据处理函数以及机器学习算法，通过赋予R/Python分布式计算的能力，极速提升AI建模效率。

通过这一套体系，数据工程师和算法工程师可以使用同一套语言，同一套数据处理和建模的逻辑，避免了因沟通带来的协同效率问题。

在解决了大数据下的特征构造和模型训练问题后，就需要将人工智能模型应用在实际生产当中。随着更多的组织试验 AI，他们发现创建机器学习 (ML) 模型只是 ML 生命周期中众多步骤的第一步，大规模管理整个生命周期非常复杂。

1、组织需得自行记录和管理数据、代码、模型环境和机器学习模型。

2、需要建立流程来开发、打包和部署模型，以及监视其性能，并偶尔重新训练它们。

3、大多数组织在生产中同时管理多个模型，增加了复杂性。

在人工智能落地应用中，模型算法的开发只占到了20%的时间，而部署上线、运维则需要花费80%的时间。

据统计，87%的数据科学项目无法投入生产环节。因为对于上述挑战挑战，企业缺乏：

1、跨团队协调：各自为政的团队妨碍工作流的协调和协作。

2、标准的可重复过程：如果没有自动且可重复的过程，那么员工每次创建并部署新模型时，都必须“重造轮子”，白费力气。

3、资源：需要大量时间和人员来管理生命周期。

4、可审核性：随着时间推移而保证模型满足法规标准和性能阈值是困难的。

柏睿数据人工智能产品体系框架中的AIworkflow则是为了解决这些问题而生。

柏睿数据全数据流程可视化建模管理平台AIworkflow

AIworkflow是全流程可视化建模(MLOps)平台，为用户提供低门槛、方便快捷的机器学习建模和管理能力，实现建模流程“省、准、精、快”，加速AI工作生命周期。

案例分享：从25小时到5小时，效率、效益双提升！

以柏睿数据为某省国网电力大数据应用项目为例。该客户在电能表日常计量误差验证和运行维护管理工作中，因工作量大、效率低、操作现场复杂情况和操作人员经验水平限制等问题，导致了大量的成本浪费。

在本次项目中，柏睿数据一方面通过改造系统架构：应用RapidsDB实现全内存的行业混存模式，确保灵活、快速地响应业务变化对分析模型的需求；另一方面，替换数据分析模式和算法：采用数据库库内分析计算以及结合专家业务模型，利用内存数据库分析挖掘组件RapidsPY,使得用户以Pandas的处理方式将所有的数据处理的操作都在内存数据库RapidsDB中实现；对处理好的数据在数据库内进行AI建模。

该项目最终交出了亮眼的“成绩单”，显著提升了智能电能表高效管理能力，实现了对智能电能表的运行状态在线日评价分析。以往，一次全省低压电能表计算需要25小时，经过本次优化，现在只需5小时，效率提升5倍。同时，基于优秀的数据驱动与智能分析能力，为客户提供在电能表维护、精准更换策略等方面更高效参考，真正赋能客户提质增效与安全运行。

在国家政策和市场需求的强大感召下，人工智能的热度持续攀升，更多的应用场景在浮现、更多的服务产品在孵化。致力于做中国的智能数据算力公司，柏睿数据正携DATA+AI的技术能力与时代同行。未来，运行在算力架构之上的数字与智能世界，将会出现更多可能。

• 多家银行调整存款利率！2023年存款利率将继续走	• 不能大幅跑赢基准，公司就正式关门！昔日股评界
• 公募开年连续大动作！华夏基金这笔交易落定，巨	• FOF年度成绩出炉！规模终于克制了，仅2只产品正
• 金融工程是赤兔马，是青龙偃月刀！开源证券魏建	• 新年首周多笔定增落定！财通、诺德、建投、申万
• 证监会重罚操纵市场违法行为！牛散李卫卫被罚没	• 大额存单仍抢手存款定期化趋势加深
• 上市银行可转债转股率分化明显估值调整已告一	• 银行理财净值回升机构看好后市机会

不能大幅跑赢基准，公	公募开年连续大动作！
FOF年度成绩出炉！规	金融工程是赤兔马，是