实验床（泰）

💡简介^[1]

实验床简介
- 能提供芯片和系统等基础环境，是面向研究、开发与应用验证的试验装置。

实验床具体介绍
- 人工智能新技术实验床（泰）是全球首个大规模开放性AI实验床。该实验床为制定以人工智能为代表的新技术标准提供依据，为验证和展示新技术提供平台，具备大规模复杂场景构建能力，提供新技术实训教育平台和欣秀科教交流工具。
- 实验床服务提供多种主流测试环境，测试环境秒级生成，可提供定制化测试环境，可根据需求提供测试节点或节点集群。在性能监控方面提供用户权限隔离、用户行为监控、性能监控和资源调度等。实验床集合了多种State-of-practice的硬件环境，包括不同型号的GPU、CPU、AI智能芯片（寒武纪）、RISC-V云平台等。
实验床资源和贡献单位
- 实验床由国际测试委员会（BenchCouncil）联合中科院计算所、国家超算中心深圳中心、俄亥俄州立大学、中科云达、寒武纪、工信部中国软件评测中心、之江实验室、中国开放指令生态(RISC-V)联盟和西安交通大学等国内外单位建设，将由北京尖峰新锐信息科技研究院和国家超算中心深圳中心进行管理维护。其中，实验床节点分布中国北京、天津、深圳、南京、浙江、新加坡、美国等地，节点内硬件涵盖典型数据中心服务节点、GPU测试群、RISC-V云，以及寒武纪测试节点等。

🔨功能

为制定以人工智能为代表的新技术标准提供依据，其将客观评价新技术，并发布技术性能榜，具体包括IoT(端)、Edge(边缘)、数据中心和高性能计算机人工智能评测基准和性能排行榜。（性能排行榜主要面向硬件芯片、系统、软件架构、具体算法，分为硬件赛道、系统赛道、自由赛道）
具备大规模复杂场景构建能力，将为验证和展示新技术提供平台。
提供新技术实训教育平台和欣秀科教交流工具，发挥推广和培训新技术、培养人才的作用。

测试基准与标准市场：对不同领域孵化了一系列基准和工具，也选择、汇总并推荐了一系列有影响力的基准项目。

🏞️案例

1️⃣ 大数据基准测试仪：BigDataBench

简介

提供：
- 多种层次（微基准、组件级基准、应用级基准）的基准测试工具。
- 多种基于大数据软件栈实现的大数据软件系统。
- 覆盖多种应用场景，提供多种类型的大数据负载真实数据集 & 数据生成工具。
实现：
- 硬件、软件、业务系统/算法的定量评测。
  - 体现系统/算法问题，指导系统/算法设计；对比系统/算法性能，指导系统/算法选型。
- 简化并标准化大数据基准测试框架开发。
- 简化并标准化输入数据设计。
  大数据基准测试仪：BigDataBench内容组成

具体介绍

以大数据的测量、分析、优化为理论基础，实现对于硬件系统、软件系统和业务系统的定量评测。为大数据系统的设计、选型、验收、扩容、优化提供全生命周期的测试服务。
BigDataBench 负载涵盖搜索引擎、电子商务和社交网络等互联网服务类型，多媒体处理等大数据负载。负载包含 20 多种，且提供主流大数据系统实现。
数据集提供六种真实数据集，覆盖多种数据来源（文本、表、图、图像）和多种数据类型（结构化、非结构化、半结构化）。
同时提供基于真实数据生成的数据生成工具，能够在多种数据源之任意缩放所生成的数据集，并保持重要的种子数据特征。

应用场景

通用大数据软件系统的设计和选型
通用大数据硬件系统的设计和选型
特定领域大数据系统和硬件设计和选型
指导大数据算法和系统的优化
大数据算法与系统的科研
大数据评测服务与排名

2️⃣ 人工智能基准测试仪：AIBench

简介

提供：
- 用于细粒度分析和代码优化的算子级微基准，用于复杂组件性能和质量评价的任务组件级基准。
- 层次化模块化定制开发框架（负载类型、领域定制）。
- 自动部署 & 分析工具
实现：
- AI 软、硬件系统、算法（训练、推理）的定量测评。
  - AI 系统/算法设计、选型。
- 简化并标准化 AI 基准测试框架开发。
- 简化并标准化数据输入。
  内容组成

具体介绍

提供一套可定制和扩展的人工智能基准测试框架，采用层次化和模块化的设计，支持定制领域及定制负载的扩展。根据不同的评测需求，该框架支持构建便于细粒度分析和代码优化的人工智能算子级微测试基准，以及便于复杂组件性能和质量评价（如 AI 模型准确度）的任务组件级测试基准。 AIBench 覆盖典型的 AI 处理任务，提供图像/语音/音视频处理等人工智能处理模式和类型。

应用场景

通用 AI 软、硬件系统的设计、选型
AI 加速器的设计、选型
指导 AI 系统的优化
AI 算法与系统的科研研究
AI 训练的评测服务与排名
AI 推理的评测服务与排名

3️⃣ 场景模拟器：ScenarioSimulator

简介

提供：
- 支持复杂场景的快速构建、模拟的组件和框架：
  - 场景核心抽象，已搭建部分领域模拟和评测系统，定制化场景设置、扩展；
  - 复杂场景支持组件：云边端协同组件、多用户多任务并发模拟组件；
  - 面向异构框架和系统的一键式部署安装组件。
- 自动化性能分析组件。
实现：
- 复杂系统的定量测评。
- 简化并标准化复杂系统基准测试框架开发。
- 简化并标准化数据输入。
  内容组成

具体介绍

基于场景的仿真、测试和验证工具平台，支持大规模复杂场景快速构建和模拟；可以提供工业互联网、军事、医疗等不同领域下的测试验证系统，以及未来应用领域和新兴技术的测试和验证。其特点如下：
1. 适应复杂应用场景和未来应用场景的快速模拟和仿真，支持场景的核心抽象，能降低真实应用的复杂性 2-3 个数量级；
2. 支持领域定制的场景扩展，结合用户需求定制化场景服务；
3. 提供工业互联网、医疗等领域的核心场景模拟和评测；
4. 提供云端、边缘端、设备端协同交互的复杂应用场景模拟，如自动驾驶、智能家居等；
5. 一键式部署安装，省去不同框架和系统的熟悉成本，提供安装模版进行一键自动安装；
6. 支持多用户多任务并发模拟，支持真实用户环境的仿真测试和验证；
7. 全生命周期管理，覆盖领域场景的设计、选型、验收、上线的全生命周期；
8. 自动化性能分析，实时分析场景的整体执行性能以及各个子系统和模块的性能，提供复杂场景部署和优化的建议。
完整的真实场景往往涉及到多个子系统、模块以及组件的相互协同，通过执行流和数据流的方式提供在线服务或者离线分析。相比传统的仅基于单一组件级别的测试工具而言，ScenarioSimulator 能够模拟真实的云端、边缘端、设备端以及三者协同处理的多种应用场景，其评测的结果更能反映整体的性能、从而避免传统评测工具下易导致评测误导性的问题，提出更符合真实场景的有效的部署建议和优化结论。

应用场景

科研和探索类项目成果的场景式展现和演示
成果集成式展现和演示
前沿技术实验床，可用于开展科研探索和试验
复杂系统的早中期系统的验证和测试
未来探索类项目的提前验证
超复杂系统的仿真和验证测试

4️⃣ 全景式负载分析工具

简介

提供：
- 自顶向下的运行环境分析组件：
  - 运行环境层（中间表示 IR 层负载特征）；
  - 操作系统层（指令集架构 ISA 层负载特征）；
  - 硬件平台层（微架构层负载特征）。
实现：
- 自顶向下全面的负载特征刻画测评。
  内容组成

具体介绍

传统的负载分析方法，专注于在某一层进行分析，如利用特定架构上的硬件性能计数器进行特定微架构分析、利用二进制流的插桩分析进行微架构独立的特定 ISA 分析、利用编译器的 IR 分析进行 ISA 独立的分析。这些方法缺少自顶向下的全景式分析，从而无法准确捕捉负载的本质特征。BenchCouncil 全景式的负载特征分析工具提供自顶向下的关联分析：提供从 IR 层到 ISA 层和微架构层的负载特征关联分析，全面刻画负载特征，指导软硬件协同设计。

应用场景

处理器设计的负载特征分析
指令集设计的负载特征分析
处理器评测服务与排名
系统结构方向的科研研究
热点函数和性能瓶颈分析与定位
软硬件协同设计

5️⃣ 网络仿真分析仪

简介

提供：
- 大规模数据中心的网络仿真模拟组件；
- 大规模数据中心的流量特征分析组件。
实现：
- 自顶向下全面的负载特征刻画测评。
- 简化并标准化分布式集群网络环境仿真。
- 简化并标准化数据输入。
  内容组成

具体介绍

大规模网络仿真和流量分析对于上层应用级别的网络特征分析和优化、以及底层硬件级别的交换机芯片评测和架构改进均具有至关重要的作用。
BenchCouncil 网络模拟与分析仪支持大规模数据中心的网络仿真模拟与流量特征分析，其特点如下：
1. 支持任意网络拓扑和集群规模的模拟，并能有效仿真分布式集群环境；
2. 提供真实现代负载的网络流量特征分析模型，包括大数据、人工智能、互联网服务等；
3. 提供基于真实网络流量模型的流量重放工具，能够保持真实流量特性并支持微妙 / 纳秒级的仿真模拟；
4. 提供网络特征与交换机芯片特征的映射模型，从交换性能、拥塞控制、时延抖动、突发吸纳、缓存容量等维度全面评测交换机芯片性能。

应用场景

大规模网络系统的测试与验证
网络与系统的科研研究
网络与系统的工业级研发
网络与系统的选型，评估和优化
网络与系统成果的集成展现与显示
未来网络系统的仿真与验证

🧠问题

怎么用？是底层资源管理平台？是输入确定的评价平台？（根据例子解释）
- 可定制的测试环境提供及基准测试平台。
是仅提供测试环境？由用户自行输入数据集？
- 提供简化输入的组件。
按照“仅测试环境”的假设来说，排行榜的作用是展示各种“测试环境性能”也就说得过去了。那该平台是否提供了“模型性能”排行榜？如果没有，是否还有必要增加排行榜？
- 能提供算法的测试。

📚相关知识

benchmark 与 baseline

benchmark 是一个过程，baseline 是 benckmark 这个过程中的一次实例。
benchmark 过程包括三个步骤：
1. 设置(setup): 根据实验目的做得设置，通常也是在论文实验结果之前要交代的实验设置，根据所要研究的问题选择合适的数据集、算法、对比算法、比较参数等等。
2. 执行(execution): 这个部分就是按照上一步的设置进行实验。
3. 分析(analysis): 通过各种分析方法分析上一步得到的实验结果，用来佐证提出的算法或者假设。

微基准测试

微基准测试(Micro-benchmarks)是基准测试中的一种方法，用来测试微小代码单元的性能，通常这个微小代码单元可以是一段算法，一个方法，一个数据结构。

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] BenchCouncil新技术实验床（泰）

Fre5h1nd's Blog

【TestBed】人工智能新技术实验床（泰）简介

实验床（泰）

💡简介^[1]

🔨功能

🏞️案例

1️⃣ 大数据基准测试仪：BigDataBench

简介

具体介绍

应用场景

2️⃣ 人工智能基准测试仪：AIBench

简介

具体介绍

应用场景

3️⃣ 场景模拟器：ScenarioSimulator

简介

具体介绍

应用场景

4️⃣ 全景式负载分析工具

简介

具体介绍

应用场景

5️⃣ 网络仿真分析仪

简介

具体介绍

应用场景

🧠问题

📚相关知识

benchmark 与 baseline

微基准测试

🗺参考文献

Fre5h1nd's Blog

【TestBed】人工智能新技术实验床（泰）简介

实验床（泰）

💡简介[1]

🔨功能

🏞️案例

1️⃣ 大数据基准测试仪：BigDataBench

简介

具体介绍

应用场景

2️⃣ 人工智能基准测试仪：AIBench

简介

具体介绍

应用场景

3️⃣ 场景模拟器：ScenarioSimulator

简介

具体介绍

应用场景

4️⃣ 全景式负载分析工具

简介

具体介绍

应用场景

5️⃣ 网络仿真分析仪

简介

具体介绍

应用场景

🧠问题

📚相关知识

benchmark 与 baseline

微基准测试

🗺参考文献

💡简介^[1]