随着互联网 +、人工智能、云计算等新技术不断涌现与成熟,大数据与各行业深度融合,引发了各种变革。搜索引擎服务、电子商务、社交网络、在线音视频、地理信息服务等互联网应用产生了海量数据,企业如何从海量数据中发掘有价值的数据,将数据标准化、平台化、智能化、产品化,最终帮助企业进行正确决策,成为企业大数据落地的重点和难点。
“在合法合规的前提下,从海量数据中高效的提取数据的应用价值,是大数据落地的关键所在。如果数据量很大,但是无法提取出价值,反而是一种负担。” 联通大数据有限公司数据科学总监陈博表示。“从落地的角度看,我觉得大数据需要与各行业深度融合。同样的数据可以用于不同的行业,而如何从数据中形成适合某个行业的应用价值,需要对数据的价值维度与行业的应用场景都有非常深入的认知。” 陈博补充说。
集中运维管理,保障应用基础
作为通信运营商,中国联通早在 2010 年,就提出了数据大集中策略;2012 年,开始组建全国数据中心,涵盖全国所有省份实现了全网数据的统一集中汇聚与管理。目前,联通大数据公司每天的新增数据量达到 150TB 以上。
为了能高效的处理如此海量的数据,联通大数据目前拥有数千节点的集群,每天要运行 10 万个以上的处理任务。运维如此大规模数据集群,在业界也是不多见的,对于联通大数据来说,并没有太多可以直接借鉴的外部经验,靠的就是自身建立的一支高效的集群运维管理团队,进行长期 24 小时不间断的监护、优化。在过去一年中,在日增数据量翻倍、集群资源几乎没有扩容的情况下,通过从集群文件碎片、冗余数据库表、RPC 任务管理等多方面的持续优化,使集群的整体资源负载反而下降了近 30%,从而为上层大数据应用提供了坚实的基础算力保障。
同时,联通大数据对所有数据业务的开展都是以完全合法、合规为首要前提,内部有着非常严格的安全管理和监控机制,坚持 “敏感数据不出门” 的原则;对外数据产品与服务更多是基于区域性、群体性的统计分析以及模型加工产生的标签数据,并且任何数据结果的输出都需要经过内部安全网关的层层严格审核,从而为上层大数据应用提供了可靠的安全合规保障。
在此过程中,联通大数据在大规模数据集群运维、海量数据资产管理方面积累了大量的实践经验,逐步总结形成了一整套完善的运维管理机制,在 6 月初的大数据产业峰会上获得了 “2019 年星河奖 —— 最佳数据资产管理实践奖”。
构建数智能力,释放应用价值
面对日增上百 TB、总量近百 PB 的海量数据,如何实现大数据的应用价值,陈博认为 “大数据企业首先需要对于自身数据的核心价值维度有明确的认识,进而才能清楚如何建立自身的数据能力体系去释放数据的应用价值 “。围绕自身的运营商大数据,联通大数据则定义了行为兴趣、位置时序、关系图谱 3 大数据价值维度,并相应的构建了 3 大类数智平台能力体系,这背后则用到了诸多 NLP、搜索引擎、时空序列、图计算等关键技术。
而在数智平台的每一项能力的构建与应用中,联通大数据的各种数据架构、数据模型、数据算法需要面对的都是 PB 级的海量数据,既需要考虑算法模型的准确度、有效性,更需要保证在大规模数据上的可用性、稳定性以及运行效率。典型的例如,从万亿级的信令大数据中通过快速排序、迭代进行基站位置工参纠偏;从万亿级位置时序数据中准实时的进行区域、时段关联检索,进而实现线上线下融合洞察推荐;从几亿号卡对应的万亿级信令中发现群体聚合,进而进行黑灰产风险号卡识别;从十亿级顶点、数百亿关系边的图谱中,进行 N 度关联群体发掘,进而辅助用于企业经营位置识别等等。这些能力的构建、应用的实现,凭借的则是自身组建的一支涵盖数据分析、数据建模、AI 应用等多方面能力的高素质、高效能的数据科学团队。
通过这 3 大类数智平台能力的组合,支撑了上层的广告、风控、洞察、舆情等标准产品,以及金融、政务、文旅、公安等各类行业应用,已经形成了丰富的大数据智能应用案例与落地成果,实现了 “大数据” 到 “大价值” 的转化。
汇聚能力资源,赋能行业升级
联通大数据已经构建了强大的数据连接、运维、治理、分析、应用、服务能力,构成了作为一家大数据科技企业快速发展的动力引擎。而在此之上,我们更希望通过开放合作,与各行业伙伴共同成长。
一方面,我们将自身在集群运维、数据治理、模型构建方面多年的运营实践经验,梳理为模式化、流程化、产品化的大数据平台建设方案进行能力输出,已经帮助政府、电力、银行、教育、旅游、邮政等多个行业的合作伙伴搭建了自有的大数据平台、应用系统,赋能行业合作伙伴快速构建大数据应用基础。
另一方面,联通大数据基于自有资源,推出了面向外部合作伙伴的能力开放平台,以多租户的形式为每个合作方提供 “算力 + 数据 + 服务” 的脱敏、安全、个性化的开发训练环境;合作方开发完的模型、应用,经过安全测试后即可封装部署在联通数智平台上,通过安全网关形成能力输出,赋能行业合作伙伴构建丰富的大数据应用能力。
面向 5G 未来,数智赋能生长
谈到未来的发展方向,陈博表示,5G 时代将至,未来连接的增长将不再主要是个人通信领域,而更多是物与物之间的连接,连接数量将会达到数百亿、上千亿的量级,涉及的领域也将覆盖智能穿戴、智能家居、工业监控、自动驾驶等各个行业、领域。未来 5G 时代的大数据,无论在数据量级、时间 / 空间密度,还是价值维度上都将会有从量到质的增长变化,但这将是一个逐渐发展的过程。因此,联通大数据将紧密跟随 5G 发展步伐,关注各个行业发展态势,秉持 “开放生态,合作共赢” 的理念,携手行业合作伙伴,挖掘行业的应用价值,继续以 “大数据 + AI” 的数智能力赋能未来行业生长。