经过一年奋战欧洲杯体育,小红书已把业界体量最大的数据湖0故障迁上阿里云。据统计,该形貌共有1500东谈主参与,迁徙数据500PB。
行为中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了昔日11年的通盘原始数据,包括结构化、半结构化和非结构化数据。比年来,跟着业务的高速增长,小红书在线处理数据的需求不停增多,同期离线处理所蚁集的历史问题,也会在将来的切换中带来更多老本与风险。
为此,2023年11月,小红书发起迁云形貌——筹办一年内,把小红书的数据湖搬上阿里云。
迁徙至阿里云上后,数据湖可通过多个OSS Bucket维持纳入和解资源池,罢了多个Bucket分享资源池内的OSS朦拢及QPS才调。这么的流控才调在面向小红书复杂业务场景,可纯真调配资源,高效愚弄朦拢性能,裁汰不同行务佃农间的彼此影响。阿里云原生HDFS+DLA元数据可罢了无缝对接Hadoop EMR体系,维持元数据线性膨大才调,炫夸应酬小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次迁徙的数据体量更大。
*注:任务=数据处理进程
(图片来自小红书官方公众号)
据先容,小红书的迁云形貌阅历了三个阶段。第一步,形貌组领先措置法式问题,然后凭据法式进行经管;第二步,完成经管后,形貌在2024年5月平稳干涉双跑阶段。把数据拷贝到阿里云上,双方同期跑数,考据正确性与实时性;第三步,2024年8月,形貌隔断双跑,干涉割接阶段。阿里云团队全程在现场保险,告成完成了割接。
2024年11月,小红书迁云形貌平稳宣告隔断。在0故障的情况下,迁徙数据500PB,任务11万,参与东谈主数1500东谈主,触及部门40多个。形貌触及居品之多和数据体量之大均创下业界记载。
蕾蕾 小风欧洲杯体育