【论文】略读笔记55-经典-噪声保护数据集的评估平台

【论文】略读笔记55-经典-噪声保护数据集的评估平台

Fre5h1nd Lv5

📖《Themis: A Fair Evaluation Platform for Computer Vision Competitions》

2021 年发表于 CCF-A 类会议 IJCAI。

🎯需求

  • 当参赛者有意针对测试数据集微调其模型以提高成绩时,计算机视觉竞赛在维护公平性方面就变得越来越棘手。
    • 机器学习在学术界和工业界的迅速发展催生了众多在线竞赛,尤其是在计算机视觉领域。大型竞赛激励着研究人员不断提高机器学习算法的性能。许多关键算法都是在竞赛中首次提出的,如 AlexNet、GoogleNet,以及在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中出现的 ResNet。丰厚的奖金吸引着全球人才为特定问题设计机器学习模型,追逐冠军。
    • 然而,一些不诚实的参赛者为了在排行榜上获得更高的测试准确率,故意用手工标注的测试集对自己的模型进行微调,这违反了竞赛道德,破坏了健康的竞赛生态系统。因此,竞赛平台必须在保证公平的前提下对参赛者的模型进行评估。

🚧现状

  • 为了减少这种不公平现象,比赛组织者会限制参赛者模型的训练和评估过程。然而,这种限制会给组织者带来大量的计算开销,并给参赛者带来潜在的知识产权泄露。
    • 如图1所示,我们将计算机视觉竞赛的主流平台分为三类:平台 A、平台 B 和平台 C。
      • 在平台 A 中,竞赛主办方发布测试数据和标签,无需进一步维护。这既减轻了组织者和参赛者的负担,又发布了测试标签,使参赛者可以利用测试集对其模型进行微调。平台 A 在机器学习社区而非竞赛中更为普遍,例如 MNIST 的手写数字识别任务。
      • 在平台 B 中,组织者只发布测试数据,并对测试标签保密,以避免上述情况。参与者需要向平台提交他们的预测结果以供评估。然而,B 平台很难防止人为标记测试数据,从而对诚实的参与者造成潜在的不公平。Kaggle 是属于 B 平台的最著名的机器学习竞赛平台。类似的视觉竞赛平台还有 ILSVRC、PASCAL VOC、MOT Challenge、DAVIS Challenge on Video Object Segmentation等。
      • 在平台 C 中,主办方既不发布测试数据,也不发布测试标签。参赛者需要上传机器学习模型或源代码进行评估。因此,平台 C 可以成功禁止人工标记,但由于模型评估环境的维护和配置成本较高,平台 C 只适用于参赛人数有限的小规模比赛,如 CodaLab、视觉物体跟踪(VOT)挑战赛。此外,参赛者在上传模型时通常不愿放弃自己的知识产权
        图1

🛩创新

  • 因此,我们提出了 THEMIS,这是一个与组织者和参赛者共同训练噪声生成器的框架,它既能防止参赛者用测试集微调模型,又不收集参赛者的模型,既结合了这三个平台的优点,又避免了它们的缺点。

    • 与平台 B 不同的是,THEMIS 通过向参赛者发布有噪声的测试数据来防止参赛者手工标注测试集。噪声由一系列独立的高斯分布产生,其参数由组织者和参与者共同训练。
    • 此外,THEMIS 比 C 平台更具可扩展性和可信度,因为组织者无需维护模型评估环境,参与者也可以对其模型保密。通过比较参与者对噪声测试数据的预测和真值测试标签(Ground Truth),THEMIS 可以估算出参与者模型的性能排名。
  • 具体来说,通过精心设计的噪声发生器,THEMIS 可以添加噪声来扰乱测试集,而不会扭曲参赛者模型的性能排名。

  • 我们的主要贡献如下:

    • 1)为了促进计算机视觉竞赛的公平性,我们提出了一个新的评估平台 THEMIS,以避免参赛者在测试集上对其模型进行微调。
    • 2)我们设计了一种噪声发生器来保护测试集,从理论上推导出其参数约束,并通过大量实验证明了其确保公平性的可行性。
    • 3)我们在UTKFace、CIFAR-10和CIFAR-100等公共数据集上进行的实验证明,THEMIS可以保护测试集不受人类视觉识别的影响,并抵御不诚实的参与者,从而保证竞赛的公平性。

📊效果

  • 我们利用广泛的真实世界模型和数据集评估了 THEMIS 的有效性。我们的实验结果表明,THEMIS 通过排除对测试集的人工标注并保持参赛者模型的性能排名,有效地实现了竞争的公平性。
    • 我们评估了 THEMIS 在包括 LeNet、ResNet 和 VGG 等流行模型以及包括 UTKFace、CIFAR-10 和 CIFAR-100 等公共数据集上的有效性。
    • 我们的大量实验证明,THEMIS 通过用随机噪声干扰测试数据,有效地保证了比赛的公平性,并精确地保留了参赛者模型在预测有噪声测试数据时的性能排名,与它们在没有添加噪声的普通测试数据上的性能相比,THEMIS 的性能排名是非常准确的。

⛳️未来机会

  • 在今后的研究中,我们计划将 THEMIS 扩展到支持自然语言处理等领域。

🧠疑问

  1. 有公开的实验数据说明各个方法的排名情况吗?是以何种方式在保障隐私的前提下公开的?还是说只是公开了最经典的几种方法的排名情况?可以进一步看看文章实验部分。


  • 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
  • 如果你喜欢这篇文章,欢迎动动小手 给我一个follow或star。

🗺参考文献

[1] Zinuo Cai, Jianyong Yuan, Yang Hua, Tao Song, Hao Wang, Zhengui Xue, Ningxin Hu, Jonathan Ding, Ruhui Ma, Mohammad Reza Haghighat and Haibing Guan, “Themis: A Fair Evaluation Platform for Computer Vision Competitions,” Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. Pages 599-605. https://doi.org/10.24963/ijcai.2021/83

  • 标题: 【论文】略读笔记55-经典-噪声保护数据集的评估平台
  • 作者: Fre5h1nd
  • 创建于 : 2024-07-21 09:39:52
  • 更新于 : 2024-10-08 11:39:55
  • 链接: https://freshwlnd.github.io/2024/07/21/literature/literatureNotes55/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论