📖《CouldPin-Fast: Effient and Effective Root Cause Localization for Shared Bandwidth Package Traffic Anomalies in Public Cloud Networks》

2024 年发表于 CCF-A 类期刊 TSC。

🎯需求

随着云服务的日益普及，许多公共云租户选择共享带宽包（sBwp）服务进行入站/出站通信。sBwp 服务允许租户为多个虚拟机（VM）购买共享带宽，而不是单独购买，这是一种既方便又经济的流量管理模式。
- 公共云提供商向大规模用户提供云计算、存储和网络等各种服务。根据最新统计数据，2022 年全球云计算市场规模为 5,458 亿美元，预计 2027 年将达到 12,409 亿美元。随着用户和服务数量的不断增加，公共云的运营和维护面临着更多挑战。应对这些挑战的方法之一是通过资源共享来实现轻松管理和降低成本。例如，多个虚拟机（VM）可以共享一台物理机，多个服务或网络功能可以共享一个网络设备。为云用户提供的另一种常见资源共享服务是共享带宽包（sBwp）服务。
  - sBwp 是一种用户友好型流量管理服务。具体来说，拥有大量虚拟机的用户可以选择使用 sBwp 服务为所有虚拟机购买总出口带宽，而不是为每个虚拟机单独购买带宽。
  - 这项服务对用户有几个好处。
    - 首先是经济成本低。用户可以使用共享带宽，避免在特定虚拟机闲置时浪费带宽资源。
    - 其次是便于应用服务管理。随着微服务技术的发展，现在很多应用服务都采用分布式微服务架构。sBwp 服务允许用户直接为应用服务所需的所有虚拟机购买出口带宽。

🚧现状

然而，sBwp 服务为运营商识别异常 sBwp 流量的根本原因提出了新的挑战，尤其是在拥有数百万用户的大规模、全球分布式公共云中。
- 然而，sBwp 服务给公共云的运行和维护带来了新的问题。其中最关键的问题之一是定位流量异常的根本原因。
  - 具体来说，当用户在 sBwp 流量中发现异常时，他们希望在 sBwp 中找到与异常相关的一组特定虚拟机。由于大多数用户缺乏云操作技能，他们希望云提供商提供的诊断工具能帮助他们找到根本原因。
  - 如下图1所示，我们展示了真实云网络环境中的一个具体异常示例。
    - 右上角的时间序列表示 sBwp 的流量时间序列，阴影部分表示异常时间间隔。这是一个持续 40 分钟的持续尖峰异常，经常出现在云网络中。
    - 下面的三个时间序列代表使用 sBwp 服务的三个虚拟机的流量时间序列。可以看出，VM1 出现异常时与 sBwp 类似。不过，VM2 并没有出现明显变化，而 VM3 的流量则很少。因此，我们希望算法将 VM1 识别为异常原因，而将 VM2 和 VM3 排除在外。
在公共云中开发本地化系统面临着几个挑战，包括动态可扩展性、超大规模数据的有效获取以及复杂的应用场景。
- 挑战❶动态性： sBwp 服务的大规模使用和云网络的动态可扩展性使得虚拟机和网络设备的流量指标经常变化。因此，用于识别流量异常根本原因的算法不需要为每个 sBwp 实例训练模型或保持历史状态。换句话说，该算法应能在“冷启动”模式下执行，而无需任何先验知识。
- 挑战❷效率： sBwp 和虚拟机的历史流量数据通常存储在专用存储集群或云存储中，可通过 SQL 等外部查询功能进行访问。然而，这些内置查询功能往往不足以进行准确的根本原因分析。要设计一种全面的算法，我们需要通过网络从本地调取原始数据进行处理和排序。由于 sBwp 服务的大规模使用，从存储集群传输所有原始数据会造成不可接受的延迟。因此，算法应尽量减少需要检索的数据量，以实现高效率。
- 挑战❸有效性：用户经常在云网络中部署各种类型的应用程序，如游戏、直播平台和网站，这可能会导致各种流量异常。这些异常可能包括时间维度上的持续和瞬时现象、振幅维度上的尖峰和低谷以及频率维度上的高抖动。一些单维度分析方法可能在识别某一类异常时很有效，但在识别其他异常时却表现很差。因此，算法应能适应不同的异常类型。
许多文献都致力于找出各种问题的根源。但是，这些方法通常是针对特定应用设计的，需要为每个服务训练一个单独的模型，因此在大型云网络中并不实用。
据我们所知，我们的研究是首次调查共享带宽流量异常的根本原因，并讨论在真实公共云网络环境中的部署经验。

🛩创新

为了应对这些挑战，我们提出了一种名为 CloudPin-Fast 的两阶段定位方法。
- 首先，CloudPin-Fast 采用冷启动模式来满足动态需求。
- 其次，CloudPin-Fast 实现了预过滤，以减少超大规模数据的传输和处理。
- 最后，CloudPin-Fast 在第二阶段使用了基于多维统计融合的异常定位算法，以覆盖复杂场景。
- 方法的基本思路是在第一阶段通过粗筛选降低数据采集的规模，以满足效率要求（挑战❷），并在第二阶段（挑战❸）进一步实施综合算法以生成精确的结果。此外，CloudPin-Fast 基于统计学习模型，因此可以实现冷启动，以应对动态性挑战（挑战❶）。
总之，本文有以下贡献：
- 据我们所知，我们首次从实际生产系统出发，对公共云网络中异常 sBwp 服务流量的根源定位进行了详细分析。以前的文章大多基于离线分析，没有考虑实际部署中的一些问题。我们提出的两阶段分析方法旨在处理实际环境的复杂性。
- 我们提出了一种从预测偏差、异常程度和形状相似性等多个维度综合分析定位根本原因的方法，然后使用一种综合排名算法来整合这三个维度的结果。多维度方法避免了单维度方法的弊端，从而可以更准确地定位根本原因；对于每个维度的算法，我们都选择了表现最好的统计方法来实现冷启动。
- 我们在四个真实数据集上进行了全面的实验，以证明我们提出的算法 CloudPin-Fast 的效率和有效性。此外，CloudPin-Fast 已在一家大型公有云供应商上部署了一年多，我们分享了实际部署中的一些经验教训。

📊效果

在四个生产数据集上的评估结果表明了其卓越的效率和有效性。我们还分享了 CloudPin-Fast 在一家世界知名的公有云供应商中部署一年多的经验教训。

⛳️未来机会

我们将分享在部署 CloudPin-Fast 过程中获得的一些经验。
- 首先，我们发现 CloudPin-Fast 不仅可用于 sBwp 的根源分析，还可用于任何需要在共享资源中定位异常根源的场景，甚至可用于定位区域出口流量异常的根源虚拟机，这可能需要从数百万虚拟机中找到根源。我们在部署中考虑到了这类应用，从而扩大了 CloudPin-Fast 的潜在用途。
- 其次，可解释性对于根本原因分析至关重要。用户往往缺乏掌握复杂统计输出的专业知识，因此需要能够提供简单易懂解释的算法。CloudPin-Fast 在设计时就考虑到了这一点，它使用特定的统计量来清楚地呈现偏差和异常。它提供用户友好的见解，例如将较高的虚拟机预测偏差与可能的根本原因联系起来。这种清晰的解释建立了用户信任，简化了参数调整，提高了算法的整体可用性。
- 第三，在真实世界环境中部署高效算法系统既复杂又苛刻。虽然许多研究都侧重于离线数据集评估，但如第 IV-B2 节所述，由于数据管理、大数据框架和并行处理需求等因素，实际生产环境带来了额外的挑战。此外，流量数据必须支持各种服务，包括计费和监控，这会限制数据检索速度。为解决这些问题，CloudPin-Fast 采用了初始粗筛选阶段，以尽量减少数据查询并提高系统速度。此外，我们还利用跨虚拟机的同构处理和多节点并行计算来进一步提高实际效率。

🧠疑问

暂无

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] S. Zhang et al., “CouldPin-Fast: Effient and Effective Root Cause Localization for Shared Bandwidth Package Traffic Anomalies in Public Cloud Networks,” in IEEE Transactions on Services Computing, vol. 17, no. 3, pp. 850-864, May-June 2024, doi: 10.1109/TSC.2024.3384093.

Fre5h1nd's Blog

【论文】略读笔记59-前沿-共享带宽包异常流量定位

📖《CouldPin-Fast: Effient and Effective Root Cause Localization for Shared Bandwidth Package Traffic Anomalies in Public Cloud Networks》

🎯需求

🚧现状

🛩创新

📊效果

⛳️未来机会

🧠疑问

🗺参考文献