【论文】略读笔记38-前沿-全球覆盖网络混合弹性云
📖《XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale》
🎯需求
- 视频会议在我们的社会中正变得越来越流行和重要。
- 我们经营着全球最大的视频会议服务之一,拥有数亿用户。我们的大多数顶级商业客户都是跨国公司,他们依靠我们的服务来举办国际在线会议,以进行常规的公司管理和各种商业活动。这就要求我们提供全球规模的视频会议服务。我们将视频会议集群作为容器部署在合作云提供商的全球不同云区域。地理分布式部署可确保我们的用户能够访问附近的视频会议服务。我们将全球各地的视频会议集群互联起来,形成在广域网中传输视频会议流量的网络基础设施。
- 质量和成本是视频会议服务的两个关键考虑因素。云平台通常提供具有不同成本和性能特征的网络层。
- 服务提供商在选择网络层来构建基础设施时面临着两难选择–
- 依靠互联网链路的质量较差。互联网链路成本低廉,但在视频会议严格的质量要求下,通过互联网链路直接连接集群实际上远不能令人满意。
- 而使用优质链路又会带来过高的成本。云提供商通常会建立自己的专用数据中心间网络,或从互联网服务提供商处租用专用链路,并将其作为高级网络层公开。使用高级链路可以满足视频会议的需求,但成本过高。
- 服务提供商在选择网络层来构建基础设施时面临着两难选择–
🚧现状
- 叠加网络(overlay network)是研究了几十年的经典课题。
- 我们认为,除了在现实世界中构建和部署全球级系统的工程贡献之外,XRON 的关键技术贡献在于设计了一种混合和弹性的重叠网络,这使得 XRON 有别于之前的叠加网络。
- 早期的叠加网络(如 RON)仅使用互联网链接来实现弹性。这不足以对突然的性能下降做出快速反应。天真地根据全局视图更新重叠路径的速度要比视频会议所需的速度慢一个数量级。
- XRON 利用混合网络资源对性能下降做出快速反应。
- 就弹性而言,虽然最近也有利用弹性云资源的云重叠(如 Skyplane),但其目标不同:XRON 是为对延迟敏感的视频会议服务而设计的,而 Skyplane 则是为吞吐量密集型大容量数据传输而设计的。这就引入了一系列不同的设计约束和解决方案,包括基于预测的主动资源扩展、可扩展的实时链路状态监控和快速的分布式数据平面反应。
🛩创新
- 我们提出了 XRON,这是一种混合弹性云覆盖网络,用于我们的全球级视频会议服务。XRON 与以往的覆盖网络不同,它有两个显著特点。
- 首先,XRON 是混合的,即利用互联网链路和优质专用链路同时实现高质量和低成本。
- 问题1:互联网链接的关键问题是不稳定性。互联网链路的延迟和损耗率会在短时间内大幅飙升(第 2.2 节)。虽然这种突然的峰值对于大容量数据传输等吞吐量密集型服务来说不是问题,但对于对延迟敏感的视频会议服务来说,却会严重影响用户体验。
- 解决1:XRON 在大多数情况下依靠互联网链路实现低成本,并在性能暂时下降时迅速将互联网链路切换为优质链路或其他高质量互联网链路,以保证始终如一的高质量。
- 利用覆盖路径(overlay path),通过中间云区域转发视频会议流量,从而获得比直接路径更好的质量。【这句话在这里的逻辑没懂】
- 问题1:互联网链接的关键问题是不稳定性。互联网链路的延迟和损耗率会在短时间内大幅飙升(第 2.2 节)。虽然这种突然的峰值对于大容量数据传输等吞吐量密集型服务来说不是问题,但对于对延迟敏感的视频会议服务来说,却会严重影响用户体验。
- 其次,XRON 是弹性的,即利用弹性云资源,根据实时需求自适应地扩展容量。
- 问题1:视频会议的流量需求随时间而变化(第2.3节)。过度配置覆盖网络会带来不必要的成本,而配置不足又无法满足高峰时段的需求。
- 解决1:XRON 采用了无服务器计算中的资源弹性理念。它减轻了叠加运营商的资源调配负担。通过添加或删除云中的容器,可以动态扩展覆盖网络的容量。
- 问题2:虽然云平台可根据资源使用情况提供反应式自动缩放,但对于对延迟敏感的视频会议服务(第2.3节)来说,这种方式太慢了。
- 解决2:我们利用应用知识建立了一个预测模型,可以准确预测视频会议服务的未来流量需求。XRON 会主动扩展资源,避免因扩展缓慢而导致服务质量下降。
- 问题1:视频会议的流量需求随时间而变化(第2.3节)。过度配置覆盖网络会带来不必要的成本,而配置不足又无法满足高峰时段的需求。
- 首先,XRON 是混合的,即利用互联网链路和优质专用链路同时实现高质量和低成本。
- XRON 利用混合链路和弹性云资源实现高质量和低成本。XRON 的原则性设计由数据平面(§4)和控制平面(§5)组成。
- XRON 的数据平面结合了主动探测和被动跟踪功能,用于可扩展的链路状态监控,根据异构双向链路质量使用非对称转发,并在控制平面不参与的情况下对突发的链路性能下降做出快速反应。
- 数据平面包括一组分布在云区域的XRON网关,用于传输视频会议流量。网关将基于采样的主动探测和被动跟踪相结合,实现了对大型覆盖网络的可扩展链路状态监控(§4.1)。
- 数据平面的流量转发是非对称的,视频流的两个方向可以使用不同的路径,以利用异构双向链路质量(§4.2)。
- 数据平面使用分布式反应机制,在链路质量突然下降时,在本地快速更新覆盖路径(§4.3)。
- XRON 的控制平面根据应用知识预测视频流量,并利用可扩展算法计算全局转发路径和反应计划。
- 控制平面是一个逻辑上集中的控制器,负责决定重叠网络的资源规模和转发路径。控制器利用特定领域的预测模型来准确预测未来的视频流量需求(§5.1)。
- 根据对重叠网络的全局了解,控制器使用可扩展的两步控制算法计算每个区域的网关数量及其转发表(§5.3)。
- 控制器还会计算备份路径,以实现快速的数据平面反应(§5.4)。
- XRON 的数据平面结合了主动探测和被动跟踪功能,用于可扩展的链路状态监控,根据异构双向链路质量使用非对称转发,并在控制平面不参与的情况下对突发的链路性能下降做出快速反应。
📊效果
- XRON 是一套生产系统,自 2022 年 8 月开始部署,用于支持 DingTalk 视频会议服务。XRON 的覆盖节点部署在全球 11 个阿里云区域。
- 在线生产统计数据显示,与仅使用公共互联网链路相比,XRON 可将视频停滞率和音频不流畅率分别降低 77% 和 65.2%。与仅使用高级链接相比,XRON 可降低高达 79% 的成本。
🧠疑问
- 提供了一个地理分布式云的实际应用场景————跨国视频会议。
- 写作模式很独特,不是先提出问题再提解决方法,而是先提解决方法的两大特点再引出相关方案问题。核心挑战其实是“不混合”,辅助挑战是“不弹性”。
- 中间提到“利用overlay path来获得比直接路径更好的质量”似乎又逻辑断层,和上下文脱节。
- 调度的资源对象是什么?是网络链路中的带宽分配?
- 什么情况下延迟会上升?
- 大规模是否对负载预测带来挑战?
- 根据这篇论文总结,大规模跨地域云场景(或者说东数西算计划)在未来可能的模式有哪些?
- 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
- 如果你喜欢这篇文章,欢迎动动小手 给我一个follow或star。
🗺参考文献
- 标题: 【论文】略读笔记38-前沿-全球覆盖网络混合弹性云
- 作者: Fre5h1nd
- 创建于 : 2024-07-01 13:51:59
- 更新于 : 2024-10-08 11:39:55
- 链接: https://freshwlnd.github.io/2024/07/01/literature/literatureNotes38/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论