📖《Themis: A Fair Evaluation Platform for Computer Vision Competitions》

2021 年发表于 CCF-A 类会议 IJCAI。

🎯需求

当参赛者有意针对测试数据集微调其模型以提高成绩时，计算机视觉竞赛在维护公平性方面就变得越来越棘手。
- 机器学习在学术界和工业界的迅速发展催生了众多在线竞赛，尤其是在计算机视觉领域。大型竞赛激励着研究人员不断提高机器学习算法的性能。许多关键算法都是在竞赛中首次提出的，如 AlexNet、GoogleNet，以及在 ImageNet 大规模视觉识别挑战赛（ILSVRC）中出现的 ResNet。丰厚的奖金吸引着全球人才为特定问题设计机器学习模型，追逐冠军。
- 然而，一些不诚实的参赛者为了在排行榜上获得更高的测试准确率，故意用手工标注的测试集对自己的模型进行微调，这违反了竞赛道德，破坏了健康的竞赛生态系统。因此，竞赛平台必须在保证公平的前提下对参赛者的模型进行评估。

🚧现状

为了减少这种不公平现象，比赛组织者会限制参赛者模型的训练和评估过程。然而，这种限制会给组织者带来大量的计算开销，并给参赛者带来潜在的知识产权泄露。
- 如图1所示，我们将计算机视觉竞赛的主流平台分为三类：平台 A、平台 B 和平台 C。
  - 在平台 A 中，竞赛主办方发布测试数据和标签，无需进一步维护。这既减轻了组织者和参赛者的负担，又发布了测试标签，使参赛者可以利用测试集对其模型进行微调。平台 A 在机器学习社区而非竞赛中更为普遍，例如 MNIST 的手写数字识别任务。
  - 在平台 B 中，组织者只发布测试数据，并对测试标签保密，以避免上述情况。参与者需要向平台提交他们的预测结果以供评估。然而，B 平台很难防止人为标记测试数据，从而对诚实的参与者造成潜在的不公平。Kaggle 是属于 B 平台的最著名的机器学习竞赛平台。类似的视觉竞赛平台还有 ILSVRC、PASCAL VOC、MOT Challenge、DAVIS Challenge on Video Object Segmentation等。
  - 在平台 C 中，主办方既不发布测试数据，也不发布测试标签。参赛者需要上传机器学习模型或源代码进行评估。因此，平台 C 可以成功禁止人工标记，但由于模型评估环境的维护和配置成本较高，平台 C 只适用于参赛人数有限的小规模比赛，如 CodaLab、视觉物体跟踪（VOT）挑战赛。此外，参赛者在上传模型时通常不愿放弃自己的知识产权。
    图1

🛩创新

因此，我们提出了 THEMIS，这是一个与组织者和参赛者共同训练噪声生成器的框架，它既能防止参赛者用测试集微调模型，又不收集参赛者的模型，既结合了这三个平台的优点，又避免了它们的缺点。
- 与平台 B 不同的是，THEMIS 通过向参赛者发布有噪声的测试数据来防止参赛者手工标注测试集。噪声由一系列独立的高斯分布产生，其参数由组织者和参与者共同训练。
- 此外，THEMIS 比 C 平台更具可扩展性和可信度，因为组织者无需维护模型评估环境，参与者也可以对其模型保密。通过比较参与者对噪声测试数据的预测和真值测试标签（Ground Truth），THEMIS 可以估算出参与者模型的性能排名。
具体来说，通过精心设计的噪声发生器，THEMIS 可以添加噪声来扰乱测试集，而不会扭曲参赛者模型的性能排名。
我们的主要贡献如下：
- 1）为了促进计算机视觉竞赛的公平性，我们提出了一个新的评估平台 THEMIS，以避免参赛者在测试集上对其模型进行微调。
- 2）我们设计了一种噪声发生器来保护测试集，从理论上推导出其参数约束，并通过大量实验证明了其确保公平性的可行性。
- 3）我们在UTKFace、CIFAR-10和CIFAR-100等公共数据集上进行的实验证明，THEMIS可以保护测试集不受人类视觉识别的影响，并抵御不诚实的参与者，从而保证竞赛的公平性。

📊效果

我们利用广泛的真实世界模型和数据集评估了 THEMIS 的有效性。我们的实验结果表明，THEMIS 通过排除对测试集的人工标注并保持参赛者模型的性能排名，有效地实现了竞争的公平性。
- 我们评估了 THEMIS 在包括 LeNet、ResNet 和 VGG 等流行模型以及包括 UTKFace、CIFAR-10 和 CIFAR-100 等公共数据集上的有效性。
- 我们的大量实验证明，THEMIS 通过用随机噪声干扰测试数据，有效地保证了比赛的公平性，并精确地保留了参赛者模型在预测有噪声测试数据时的性能排名，与它们在没有添加噪声的普通测试数据上的性能相比，THEMIS 的性能排名是非常准确的。

⛳️未来机会

在今后的研究中，我们计划将 THEMIS 扩展到支持自然语言处理等领域。

🧠疑问

有公开的实验数据说明各个方法的排名情况吗？是以何种方式在保障隐私的前提下公开的？还是说只是公开了最经典的几种方法的排名情况？可以进一步看看文章实验部分。

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] Zinuo Cai, Jianyong Yuan, Yang Hua, Tao Song, Hao Wang, Zhengui Xue, Ningxin Hu, Jonathan Ding, Ruhui Ma, Mohammad Reza Haghighat and Haibing Guan, “Themis: A Fair Evaluation Platform for Computer Vision Competitions,” Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. Pages 599-605. https://doi.org/10.24963/ijcai.2021/83

Fre5h1nd's Blog

【论文】略读笔记55-经典-噪声保护数据集的评估平台

📖《Themis: A Fair Evaluation Platform for Computer Vision Competitions》

🎯需求

🚧现状

🛩创新

📊效果

⛳️未来机会

🧠疑问

🗺参考文献