5月19日,由北京市中小企业公共服务平台、北京市软件和信息服务业协会主办的「数字经济生态共建交流会之AI应用创新实践研讨」在线上如期开展。来自柏睿数据、亚信科技、中科创达、云从科技的技术专家,共探人工智能应用创新实践。
本文整理自柏睿数据人工智能产品总监易水寒的《算力时代的人工智能应用创新》主题分享。
大数据+澎湃算力,为人工智能的蓬勃发展带来了机遇
2016年3月,一场围棋人机大战万众瞩目,对战双方分别是人工智能围棋手AlphaGo和人类棋手李世石。李世石首场胜利后,便连输3场,最终败给了人工智能。因此,有人称2016年为人工智能元年,2017年是人工智能的落地之年。此时,大众对人工智能的认知达到了前所未有的高度,传统产业对智能转型的热情也空前高涨。然而事实上,当前主流的人工智能技术中所采用的算法,几乎都是上世纪八九十年代或更早被提出的。以AlphaGo为例,其采用的强化学习、深度学习、蒙特卡洛搜索树都是上世纪被提出来的。
人工智能发展跌宕起伏,在上世纪70年代至90年代,甚至经历了漫长的黑暗期,多项研究进展缓慢。我们不禁要问:为什么在今天,人工智能又开始蓬勃发展起来了呢?
过去的十几年间,随着互联网的发展,社会生活越来越多地依托于互联网上展开,互联网因此积累了前所未有的大量的实体和用户数据。在大规模数据集和大数据计算的支撑下,使得最终训练得到的模型足够复杂,进而可以有效地逼近很多困难问题的决策边界,使得人工智能,尤其是深度神经网络,在精准推荐、语音识别、图像处理、自然语言处理以及金融、教育、物流、制造等方面都取得了长足的进步,创造了巨大的社会价值和商业利益。 可以说,大数据+澎湃算力为人工智能的蓬勃发展带来了机遇。
算法、算力和数据的衔接,成为实现人工智能应用的必由之路
几乎各行各业都在探索或积极部署人工智能,不管人工智能各种用例的差异有多大,它们都有一个共同点:数据。人工智能应用能够感知、推理、行动和调整。这是通过从规模庞大、种类多元的数据集中学习获得的能力。
从原始数据到数据准备、模型训练到模型部署的过程中,需要使用到许多不同的技术,如下图所示。
同时,实现一个人工智能应用的过程,需要众多不同角色的参与,包括数据工程师、算法工程师、运维人员与应用开发人员。
首先,在提升人工智能模型准确率的时候,数据质量是其中重要的一环。如果没有好的数据质量,无论采用多么先进的算法技术,最终只能是garbage in, garbage out。即便算法工程师处理好了数据,在离线测试中产生了高准确率的模型,也可能在部署上线的过程中,由于和数据工程师使用技术的不同,带来对数据概念理解的偏差,进而导致部署上线的数据和训练使用的数据概念不同,使得最终上线时模型准确率不及预期。
因此,在涉及技术非常多、涉及人员非常多,而且每个人员使用的技术又不同的情况下,如何让与数据打交道的人们协调工作,如何将算法、算力和数据衔接起来,成为实现人工智能应用的关键问题。
为此,柏睿数据研发推出人工智能产品体系架构,贯穿数据存储、数据分析处理、机器学习建模到上层应用开发全生命周期。该架构基于柏睿数据在2019年全球首推的“库内人工智能《AI-in-Database库内人工智能》标准”,这也是最早将“AI”技术与“大数据技术”进行原生结合的国际标准。
柏睿数据分布式内存数据库RapidsDB
RapidsDB是柏睿数据全国产自主研发、具有完整独立知识产权、基于全内存架构的分布式关系性型数据库,提供金融级数据持久化、数据安全性、系统高可用性,高于传统磁盘架构数据库100+倍数据读写访问和分析性能,适用于数据量大、实时性要求高的应用场景。
而RapidsDB丰富的数据类型和函数支持,也使得库内人工智能特征构造和模型训练成为可能。
RapidsPY
RapidsPY是在RapidsDB之上实现pandas Dataframe API的一个Python库, 让用户可以在RapidsDB上使用pandas对大数据进行处理和分析。 依靠RapidsPY,用户无需将数据从数据库迁移到python中,便可以直接利用python的pandas接口来对存储于分布式数据库的数据进行处理。
柏睿数据库内工智能算法库ParallelAI
ParallelAI 是一种R/Python的扩展软件包,可通过R/Python与自研计算引擎实现交互,将R/python中的命令提交到引擎进行集群资源分布式计算,可支持多类数据处理函数以及机器学习算法,通过赋予R/Python分布式计算的能力,极速提升AI建模效率。
通过这一套体系,数据工程师和算法工程师可以使用同一套语言,同一套数据处理和建模的逻辑,避免了因沟通带来的协同效率问题。
在解决了大数据下的特征构造和模型训练问题后,就需要将人工智能模型应用在实际生产当中。随着更多的组织试验 AI,他们发现创建机器学习 (ML) 模型只是 ML 生命周期中众多步骤的第一步,大规模管理整个生命周期非常复杂。
1、组织需得自行记录和管理数据、代码、模型环境和机器学习模型。
2、需要建立流程来开发、打包和部署模型,以及监视其性能,并偶尔重新训练它们。
3、大多数组织在生产中同时管理多个模型,增加了复杂性。
在人工智能落地应用中,模型算法的开发只占到了20%的时间,而部署上线、运维则需要花费80%的时间。
据统计,87%的数据科学项目无法投入生产环节。因为对于上述挑战挑战,企业缺乏:
1、跨团队协调: 各自为政的团队妨碍工作流的协调和协作。
2、标准的可重复过程: 如果没有自动且可重复的过程,那么员工每次创建并部署新模型时,都必须“重造轮子”,白费力气。
3、资源: 需要大量时间和人员来管理生命周期。
4、可审核性: 随着时间推移而保证模型满足法规标准和性能阈值是困难的。
柏睿数据人工智能产品体系框架中的AIworkflow则是为了解决这些问题而生。
柏睿数据全数据流程可视化建模管理平台AIworkflow
AIworkflow是全流程可视化建模(MLOps)平台,为用户提供低门槛、方便快捷的机器学习建模和管理能力,实现建模流程“省、准、精、快”,加速AI工作生命周期。
案例分享:从25小时到5小时,效率、效益双提升!
以柏睿数据为某省国网电力大数据应用项目为例。该客户在电能表日常计量误差验证和运行维护管理工作中,因工作量大、效率低、操作现场复杂情况和操作人员经验水平限制等问题,导致了大量的成本浪费。
在本次项目中,柏睿数据一方面通过改造系统架构:应用RapidsDB实现全内存的行业混存模式,确保灵活、快速地响应业务变化对分析模型的需求;另一方面,替换数据分析模式和算法:采用数据库库内分析计算以及结合专家业务模型,利用内存数据库分析挖掘组件RapidsPY,使得用户以Pandas的处理方式将所有的数据处理的操作都在内存数据库RapidsDB中实现;对处理好的数据在数据库内进行AI建模。
该项目最终交出了亮眼的“成绩单”,显著提升了智能电能表高效管理能力,实现了对智能电能表的运行状态在线日评价分析。以往,一次全省低压电能表计算需要25小时,经过本次优化,现在只需5小时,效率提升5倍。同时,基于优秀的数据驱动与智能分析能力,为客户提供在电能表维护、精准更换策略等方面更高效参考,真正赋能客户提质增效与安全运行。
在国家政策和市场需求的强大感召下,人工智能的热度持续攀升,更多的应用场景在浮现、更多的服务产品在孵化。致力于做中国的智能数据算力公司,柏睿数据正携DATA+AI的技术能力与时代同行。未来,运行在算力架构之上的数字与智能世界,将会出现更多可能。