淘宝数据产品的技术架构可分为五层
- 时间:
- 浏览:112
- 来源:易万佳
如何从淘宝网拥有的海量数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。易万佳淘宝店铺转让概括性地介绍淘宝海量数据产品的技术架构,并重点从四个方面阐述数据魔方设计上的特点。
可以按照数据的流向把淘宝数据产品的技术架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。在数据源层实时产生的数据,通过淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到一个有1500个节点的Hadoop集群上,这个集群我们称之为云梯,是计算层的主要组成部分。为此,针对前端产品设计了专门的存储层。存储层异构模块的增多,对前端产品的使用带来了挑战。为此,设计了通用的数据中间层——glider——来屏蔽这个影响。
数据魔方设计上的特点:关系型数据库仍然是王道。尽管相对于非关系型数据库而言,关系型数据库在分区容忍性方面存在劣势,但由于它强大的语义表达能力以及数据之间的关系表达能力,在数据产品中仍然占据着不可替代的作用。淘宝数据产品选择MySQL的MyISAM引擎作为底层的数据存储引擎。值得一提的是,在MyFOX现有的20个节点中,并不是所有节点都是平等的。一般而言,数据产品的用户更多地只关心最近几天的数据,越早的数据,越容易被冷落。更多的技术内容,这里易万佳淘宝店转让平台就不一一介绍了。
由此,数据魔方目前已经能够提供压缩前80TB的数据存储空间,数据中间层glider支持每天4000万的查询请求,平均响应时间在28毫秒(6月1日数据),足以满足未来一段时间内的业务增长需求。
猜你喜欢