字节跳动开放计算最佳实践,亮相 2024 开放计算中国峰会

来源: 投稿
2024-09-14 16:23:00

8月8日,2024开放计算中国峰会在北京举行, 全球开放计算组织 OCP 基金会首次颁发了开放计算最佳创新奖、开放计算最佳实践奖和开放计算生态贡献奖,用以表彰在开放计算领域做出卓越贡献的社区成员。字节跳动在本次大会中荣获开放计算最佳实践奖,字节跳动开源委员会 TOC 战略评审组委员、STE 团队负责人张宇受邀接受 CSDN 采访,分享了相关的开放计算实践经验。以下为本次采访报道的内容。

文章来源|字节跳动 STE 团队

开放计算作为一种数据中心产业协同创新的方式,经过多年发展,汇聚了广泛的计算服务提供商、用户,为实现 IT 基础设施在产品、规范、知识产权等方面的最大化的开放共享而共同努力,成果卓著。这其中,开放计算组织功不可没。

而随着人工智能、大模型的爆发,传统的计算正在朝着多模态、多元算力等智能计算融合发展,如何进一步实现生态协同、开放共赢,对开放计算提出了新的要求。

8月8日,由两大开放计算组织 OCP(Open Compute Project)与 OCTC(开放计算标准工作委员会)联合主办的主题为“开放协同:协作、智慧、创新”的 2024 开放计算中国峰会在北京举行,以期与全球开放计算领域的社区和企业领袖、技术专家以及行业先锋,共同探讨新时代开放计算技术的最新进展和实践经验,促进生态融合、智能化实践和技术创新。

为了表彰企业在开放计算领域的探索和实践,OCP 首次颁发了年度开放计算最佳实践奖。字节跳动因其在云固件、OpenBMC、Universal Payload、液冷和整机柜等多个领域的创新实践,特别是在云固件生态建设方面贡献突出,自2021年以来,已部署超过 1 万台设备,并积极参与OCP OSF 工作组的创建,完成多平台云固件方案支持,获得开放计算最佳实践奖

在人工智能时代,业务对于底层计算、存储、网络、数据中心等方面的需求与日俱增,抖音、今日头条、豆包等上层业务能够稳定运行,高效、稳定、可靠的 IT 基础设施功不可没。这其中,开放计算相关的技术创新占得一席之地。据了解,字节跳动一直致力于开放计算领域的创新和实践,并在多个领域取得了显著的成绩,不仅提升了公司的业务效率,同时也为与业界提供了有益的方案和实践经验参考。

在服务器固件方面,字节跳动分别在 2021 年和 2023 年发布了新一代的固件解决方案 Cloud Firmware 1.0 和 2.0,成为全球第一个在 x86 服务器中产品化 coreboot、LinuxBoot 固件解决方案的厂商,目前 3.0 正在开发中,支持更多架构平台。从 2020 年开始,在 OCP 社区和合作伙伴们共同探讨和完善 Cloud Firmware 解决方案,共同打造更加开放、简单易用、融合的固件新生态。Cloud Firmware 于 2022 年底被 OCP-OSF 接受为新一代固件解决方案并推广,STE 团队固件架构师葛士建也在 2023 年成为 OCP-OSF Project Leader,主导和推进固件开源工作。

另外,通过拥抱开源创新和稳步迭代上量的策略,基于 OpenBMC 开源社区的原生方案,逐步开发形成了具备大批量工程交付成熟度的 BMC 产品。从 2021 年到现在,已经实现从 DPU 形态支持到 server 产品化全量覆盖,并逐步上量。在2024年,进一步进行架构迭代,支持更广泛的芯片平台和更全面的可观测能力,为多元算力基础设施提供了灵活、全面的运维管理解决方案。与此同时,积极贡献社区生态,共向 OpenBMC 社区提交 310+ patches,取得了良好的社区认可。

字节跳动不仅在服务器硬件方面开展创新实践,而且随着公司业务的扩展,对底层数据中心提出了更高的要求。与此同时,还在系统虚拟化、Linux 内核等方面持续进行创新和优化,以更好地满足业务对数据中心的需求,达成提升效率、节省能耗、降低成本的目标。

在系统虚拟化方面,自主研发了面向云原生场景的下一代高性能设备虚拟化框架 VDUSE(vDPA Device in Userspace),该框架能够为容器和虚机提供统一的 I/O 虚拟化层。目前在云原生场景下,容器/安全容器/虚机等计算资源侧在实现分布式块/fs 等设备接入时依赖的接入方案多种多样,无论是性能还是在高可用热升级层面都面临很多可用性/可靠性的挑战。基于这个背景 STE 团队与存储团队紧密合作完成了虚机/容器等资源的统一 VDUSE 接入方案,实现了高性能、高可用以及有状态热升级的核心特性支持,同时 VDUSE 方案也已经被合入到 Kernel / Qemu 等上游社区,作为 vDPA 用户态实现方案丰富了整体虚拟化设备接入的方案生态。

在操作系统内核方面,STE 团队一直深耕在 Linux 内核的内存管理领域,一方面通过内核软件层面的优化节省出更多的可用内存,另一方面降低内存紧张、跨节点内存访问、内存锁竞争等问题导致的系统稳定性风险。而在内存节省方面,除了之前已经被社区接纳的 HVO(HugeTLB Vmemmap Optimization,一种内核内存去重技术方案),还在开发 PTE(Page Table Entry)页面优化,在比较极端的情况下单机可以节省 100GB 的用户态页表内存,目前方案和代码已贡献给 Kernel 社区。

之所以能取得这样的成绩,在张宇看来,与公司的开放生态(开源)理念息息相关。“字节跳动的开源理念是激发创造、拥抱开源,看重参与开源的长期价值,愿与全球合作伙伴共同实现生态繁荣”,张宇表示。

据了解,字节跳动的开源历程经历了使用开源、贡献开源、主动开源三个阶段。

  • 使用开源:早期,公司内部积极采用开源技术来快速构建基础设施技术中台能力,帮助公司解决基础设施问题,加速核心业务迭代,推动了抖音、今日头条等业务的发展。

  • 贡献开源:在使用开源过程中,逐步开始结合自身业务场景对相应的开源技术进行了优化改进,并反馈到社区中参与开源贡献。例如云固件 Cloud Firmware 就是针对固件技术的优化改进并反馈给 OCP 社区的,并由此成为开放计算领域的新一代固件的解决方案,在社区里推广开来。目前,云固件 Cloud Firmware 已历经两次产品化迭代——LinuxBoot、coreboot。为了推动云固件生态的繁荣,字节跳动于 2023年联合英特尔、浪潮信息、OCP-OSF 、OSFF 社区举办了云固件沙龙交流会,推进云固件领域的技术发展与合作共赢。

  • 主动开源:而当贡献累积越多之后,公司开始尝试主动系统性地将自身的技术形成一个个项目,回馈给开源社区。

此外,从与张宇的采访过程中了解到,字节跳动的企业文化注重开放、包容,鼓励员工发挥创造力,激发员工的奇思妙想。公司非常鼓励大家进行技术创新,参与开源建设、行业技术交流,同时也会自行主办一些技术会议,促进行业的交流合作、技术生态的发展,前面提到的云固件沙龙交流会就是一个例子。在这样的企业文化指引下,字节跳动技术创新实践与开源社区形成了正向循环,在开放计算领域也由此硕果累累。因此,在本次开放计算大会中获得评委的一致认可,获得开放计算最佳实践奖。

当前,大模型引领的智能时代,正在重构人工智能基础设施,数据中心迎来算力、网络、存储、管理、能效的全向 Scale 创新挑战,需构建全球化的开放协作平台,合力解决上述重大问题,全面优化人工智能基础设施。已走过参与开源,正在贡献开源、主动开源的字节跳动,将继续加大在开放计算领域的投入,与行业伙伴共同推动开放计算技术的发展,为用户提供更加高效、高质量的计算服务。同时也将积极参与开放计算标准的制定,为行业的规范化和可持续发展贡献力量。

未来,随着技术的不断进步和业务需求的持续增长,开放计算将在更多领域发挥重要作用。字节跳动将紧跟时代步伐,不断探索创新,为开放计算的发展注入新的活力。

关于STE团队

字节跳动STE团队System Technologies&Engineering,系统技术与工程),一直致力于操作系统内核与虚拟化、系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。同时,团队积极关注社区技术动向,拥抱开源和标准,欢迎更多同学加入我们,一起交流学习。扫描下方二维码了解职位详情,欢迎大家投递简历至huangxuechun.hr@bytedance.com wangan.hr@bytedance.com

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
1 收藏
分享
返回顶部
顶部