李彤:大数据多维引擎和增强分析技术解读

7月30日,由上海国家会计学院主办,金蝶软件(中国)有限公司、中兴新云服务有限公司、用友网络科技股份有限公司、北京元年科技股份有限公司、浪潮通用软件有限公司联合主办的“会计科技Acctech应对不确定性挑战”高峰论坛暨2022年影响中国会计人员的十大信息技术评选结果发布会在上海国家会计学院国际会议中心顺利举行。

本次论坛邀请了五位嘉宾从信息技术的内涵、发展趋势、可能出现的产品、广泛的应用场景等维度进行深入分析。通过对未来的前瞻性展望,判断将对会计人员产生的影响方式和范围。

五位嘉宾中,元年科技高级副总裁、元年研究院新技术研究中心首席专家李彤博士从技术层面解读了大数据多维引擎与增强分析。本文为根据演讲内容的整理。

数据库诞生以来,对交易数据处理和数据分析的需求,一直是以一对矛盾的形态存在,因为两项需求的应用场景和应用特点差异非常大。交易数据处理(OLTP)是对数据库记录的增删改查的日常操作,通常是对一个或一组记录的查询和修改。目标是保证每一笔交易记录的稳定、快速、可靠,因此对快速响应用户请求,对数据的安全性、完整性以及事务吞吐量要求很高。分析数据处理(OLAP)是对数据的查询和分析操作,通常是对海量的历史数据查询和分析, 查询和分析的操作十分复杂。数据分析服务关注的是决策者对整体运营情况的反映,例如目前为止产生了多少订单、发生了多少交易额。这样的需求要对所有的交易记录、订单记录进行全量的数据汇总,但是对时效性的要求没有订单、交易提交那么高,所以这两个需求是矛盾的存在。自20世纪70年代关系数据库模型踏上历史舞台以来,数据库已经发展了近半个世纪,随着交易的应用系统的普及,企业用户对于数据分析的需求开始暴增,为解决在大数据环境下多维度数据分析的需求,OLAP相关产品逐渐被推出。

多维OLAP的技术核心就是多维,即多角度地观察数据。OLAP技术通常用数据立方体QB存储和使用数据。时间维包括年、季度、月、日,区域维包括国家、省、市、区。任何一个时间点、任何一个区域上的商品都会对应一个数据的存储。这一储存结构的优势不言而喻,支持大数据量查询和多维度分析,发挥数据价值。

OLAP技术根据应用场景的不同划分为两个主流分支:第一个分支是沿着关系数据库继续发展出来的关系型多维库(ROLAP),以数据的查询汇总为主,多用于报表和分析,可以快速地按照多维的结构对数据进行分布式的计算、汇总,把结果快速呈现给业务人员,但对复杂的计算场景的支撑有限。第二个分支多维数据库(MOLAP)脱离的关系数据库的基础,面向业务深度、复杂的计算业务分析设计,更适用于管理会计应用。例如业务用户可以在MOLAP产品中自定义创建自己的模型、维护自己维度的层次结构和成员,可以设置各种复杂的计算规则。

随着技术的进步,无论是ROLAP还是MOLAP都在不断发展。数据读取的速度比传统的磁盘已经有上几百倍的提升,大大提高了计算的速度。同时支持企业实时的业务决策,并通过建立各种预测的敏感性分析模型,寻找支撑业务最佳的解决方案。

大数据多维引擎主要解决机器如何能更高效处理数据的能力。而增强分析使用机器学习和人工智能等提升能力的技术来协助进行数据准备、见解生成和见解解释,从而增强人们在分析和 BI 平台中探索和分析数据的能力。通过AI对人进行赋能,提高人在分析数据过程中的效率问题。这一项技术随着2017年AI技术快速发展,每年约有30%的应用增长。从数据分析中各角色的分工而言,增强型分析带来的变化非常显著。增强分析能够赋能业务人员,从而为IT人员减压。传统的数据分析工作主要由企业IT完成,现在通过AI和自动化面向业务人员的产品设计,让业务人员自助式完成分析的工作,业务人员可以把控的事情变得更多。以前可能需要IT技术人员提供的支持,现在业务人员自己就能按具体需求操作。这样的变化一是让数据准备得更快。二是数据查询的效率更快。三是对数据的分析能够比传统人工的方式更加深入。这样的变化将带来业务流程的效率大幅提升,也避免了需求传递造成的信息偏差。

增强分析是由多种技术组合而成。数据准备环节中一是运用了数据虚拟化连接技术,通过构建一张网,使得数据可保留在原始系统中,无需将数据搬移复制,在数据分析时,即可灵活获取,大大减少了数据开发过程中的成本。二是第二是各个系统之间的主数据可能存在差异,通过机器学习识别不同业务系统中的数据,自动映射为统一的主数据ID,就可以像人一样动态、模糊地识别相同的实体,提高在数据建模、数据汇总过程中的效率。三是基于机器学习优化数据质量,使用AI来对数据属性、类型等信息进行自动分类并标注,通过机器学习找到数据查询时最优的数据表关联方式。

数据获取方面,一方面运用自然语言查询(NLQ)技术让用户以轻松对话的形式与系统进行交互,帮助用户无门槛获取数据,无需了解基础数据模型。未来业务部门对数据分析的需求分析查询会通过自然语言实现。自然语言查询跳开了报表,只要数仓中有想要的数据就可以用最自然的方式提问,由系统找到数据,大大加速数据获取的效率。另一方面利用自然语言生产(NLG)技术为数据添加文字说明,包括对数据的解释,以自然语言的方式呈现给用户。同时对指定数据集推荐最适合的可视化图表,辅助理解的文字描述,有助于用户理解数据中隐含的信息。

数据分析环节关键技术包括算法模型和自动洞察。算法模型提供诸如预测、聚类、归因、优化等算法模型,提供一键式操作,无需专业背景即可使用。这项技术比较复杂。首先要从企业管理或者经营实践中总结出能够形成标准方法的一些分析模型和算法。其次要把这些逻辑用知识图谱或者视力图谱的方式承载下来,形成知识。如杜邦分析中利润的变化可能由哪些指标导致的,再往下推演销量可能会引起利润的波动,继而寻找与销量相关的业务活动等。以知识图谱的形式存储在系统中,系统可以代替人找到原因,匹配可能的解决方案,推荐给前端的业务用户。自动化的数据洞察能自动扫描数据集,理解数据含义,识别具有价值的数据模式,把结果推荐给需要关注的业务用户。自动化的数据洞察会把数据切成无数个小碎片,用标准数据特征检索的一些算法、模型对数据切片进行扫描,将识别出有意义的特征切片标记出来。经过分析和加工,筛选出有价值的数据进行自动化扫描,把企业数据当中呈现出来的问题、知识、有价值的结论更加直观地展示出来。

大数据多维引擎的价值是提高机器处理数据的速度,增强分析技术的价值是提高人来分析数据解决问题的效率。这两项技术在未来数字化时代下对企业发挥数据效能具有非常重要的意义。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部