时间:2021-07-01 10:21:17 帮助过:19人阅读
——爱普新媒CTO 牛德恒
USQL是什么?
数据湖分析(USQL)是一种可扩展性强、成本低廉的无服务器SQL分析计算引擎,可轻松完成面向海量数据的数据建模工作,SQL即可完成数据查询和分析,极大降低使用大数据的门槛,且无需数据库管理员和运维人员,大幅度减少对大数据工程师的依赖。
USQL在爱普新媒案例中的表现
计算成本降低97.5%
相较于爱普新媒现在每月花费在数据仓库UDW(用于临时存放数据)的数千元,处理同样的数据,USQL可将成本控制在每月几十元,因为USQL按照实际分析数据量计费,每GB数据分析价格极低,且不使用时不计费。
任务周期缩短55.6%
爱普新媒现有架构下,处理不固定的数据需求,数据导入与分析平均处理时长为1.8天,而USQL可省去数据导入的步骤,减少运维工作量,大幅度缩短每次任务完成时间。
分析效率提升5倍
爱普新媒所有真实业务SQL均已落地,其中最耗时的SQL分析时间可从600秒降至118秒,整体明显提高SQL分析效率。
大数据工程师投入降为0
目前每月需投入大数据工程师20个人日,使用USQL产品,业务分析师可直接通过SQL在对象存储UFile中完成数据分析,极大减少对工程师的依赖,有限的人力资源可得到更好的利用。
关于爱普新媒
成立于2010年,是一家专注于移动互联网产品研发和新媒体整合营销的高新技术型公司,旗下拥有100余款精品软件,内容涵盖日常生活、效率工具、文章资讯等多个方面,主营以天气预报、快游等综合自媒体矩阵为载体的推广业务和以云魔方DSP移动互联网广告分发平台为基础的广告投放业务。
面临的数据挑战
爱普新媒广告业务数据规模达到数百TB,日增长量为1TB左右,业务日常不固定的分析需求多,现有的大数据处理方案下,数据部门每月需投入大数据工程师20个人日,额外花费数千元维持一个数据仓库集群,且平均每次需求处理时长为1.8天。基于已有架构,数据部门将广告日志数据压缩后存放于对象存储UFile中,接收到业务分析师不固定的数据需求后,再将用于分析的原始数据,临时加载到数据仓库UDW中,完成SQL分析后实施清除操作。
图:爱普新媒现有架构
业务分析师的抱怨
对于业务分析师而言,数据规模达到数百TB,无法自主完成分析,必须极大程度依赖大数据工程师;并且每次任务处理周期长,若后续有需求变更或分析结果未达预期,还需重新走一遍处理流程;此外当对分析结果存有疑问时,无法查看原始数据进行校验。
数据部门的烦恼
业务每月的不固定数据分析需求多,又无法自主完成,需要占用数据部门有限的技术人力资源;需求变动返工次数多,会导致大量重复性工作;并且随着数据规模日增长量的不断提升,用于临时存放不固定需求数据的GreenPlum成本一直在增加。
产品诉求
基于现状,爱普新媒的产品需求清晰明确:
支持数百TB规模的数据分析
业务分析师能够独立完成不固定需求分析工作
具有较强的Ad-Hoc能力
缩短每次需求处理时长
降低计算成本投入和运维投入
选择USQL产品
带着上述诉求,爱普新媒留意到UCloud推出的USQL产品,对其无运维、低成本、低门槛的产品理念产生浓厚兴趣,当即联系UCloud架构师表达试用的意愿。
在与其数据部门沟通的过程中,UCloud架构师发现对方务实且拥有开放的学习态度,对云计算也一直保持极大的好奇心,接触了解过数据湖以及Serverless的概念,为双方的交流奠定了良好的基础。此外现有架构中计算与存储是分离的状态,其原始数据并未与GreenPlum强耦合,这为更换分析引擎的方案实施提供了便利。
USQL替换GreenPlum
新架构中使用USQL替换原先用于临时加载数据的GreenPlum,省去数据从UFile导入到GreenPlum的过程,并使得业务分析师能够直接通过SQL分析UFile中海量数据,全程无需大数据工程师的参与。
图:爱普新媒新架构
此外,数据对接中发现,爱普新媒的数据格式为JSON并通过GZIP格式压缩,UCloud了解后一周内完成USQL产品升级,得以支持这两种数据格式,减少对接上的障碍,并协助爱普新媒重新布局其现有数据,目前爱普新媒实际业务SQL已全部落地,同时完成产品培训以及现场演示。
图:实际业务SQL示例
结果显示分析效率可提高5倍,CTO观看USQL的实例演示后,当场测算成本,对其在降低成本、提高效率、减少人力方面的表现感到超出预期,已决定将所有离线计算业务都放在USQL上。
如果您也有大数据分析成本的困扰,欢迎加入我们的数据分析群共同探讨!
USQL如何帮爱普新媒降低80%成本,提升50%数据分析速度
标签:架构 能力 实例 好奇心 价格 gzip 互联网产品 额外 image