Skip to content

Latest commit

 

History

History
170 lines (145 loc) · 11.6 KB

File metadata and controls

170 lines (145 loc) · 11.6 KB

License Framework

这是我们组在IJCAI 2022关于图像美学评估最新的一篇工作:

Rethinking Image Aesthetics Assessment: Models, Datasets and Benchmarks

Shuai He, Yongchang Zhang, Rui Xie, Dongxiang Jiang, Anlong Ming

Beijing University of Posts and Telecommunications

因我个人热衷于开源,希望更多的小伙伴关注到这篇工作,故额外写了一篇中文的介绍,不要忘记给我们一个小星星哦,Star一下吧!我们组在ICCV2023的最新工作:链接


TAD66K数据集  

介绍

  • 简要版:一个新的美学数据集,6万6千张左右图像,按主题分类标注。
  • 太长不看版:以主题为核心,以开源为理念,我们建立了一个包含6万6千张左右图像的数据集,可用于图像美学评估。建立这样一个数据集的初衷,源自于组内同学在标注图像美感时的困惑,我们如何去评价一朵花和一个人之间美感的区别呢?显然,不同主题的图片,通常包含了不同的评分规则,标注人员在标注图像的过程中,隐性的会考虑到当前图像的主题,但现有的数据集,通常将所有类别的图像混合在一起进行标注,这可能会引入大量的噪声。因此,我们通过半年多的时间,收集,整理和标注了一批图片,包含了47种常见的主题,每个主题包含1千张以上的图像,各个主题的图像分开标注,每张图像至少被1200以上的人浏览和评价过,计算出平均分作为分数。

TAD66K

example3

Download

  • 你可以从这里下载到数据集和标注分数 here,如果失效了,记得cue我,每张图像的最大边按等比放缩至800,标注文件都按主题类别分开整理好了。
  • 百度网盘:链接:https://pan.baidu.com/s/1bAiDMwKLF_vLZKelz5ZfRg 提取码:8888

TANet网络  

介绍

  • 简要版:在通用美学数据集AVA,个性化美学数据集FLICKR-AES, 以及自建的数据集TAD66K,全SOTA。
  • 太长不看版:我们提出了一个以主题为核心的网络架构TANet,在搭建这个网络的过程中,希望其能提取出当前图像的主题用于进一步的美感评估,因此将一个百万级别的数据集Place用来预训练我们其中的一个分支。Place数据集包含多数现实场景,虽然场景无法直接等效于主题,但据我们所知,这是目前最好的能进行主题感知的方法。值得注意的是,我们发现经过预训练的分支会出现注意力弥散现象,这会导致费尽力气预训练获得的主题感知能力丧失,这一点在此前用ImageNet进行预训练的工作中也有体现,因此我们会将该分支直接冻结。为了让网络能够自适应的利用主题信息,融合的权重是其学习得到的;为了能够让其获得图像中不同区域色彩的分布及关系信息,我们专门加了一个类似自注意力机制的分支。
  • 在对比性能时,此前的工作对比指标通常不统一,我们索性把所有发布了开源代码的工作都自己跑了一遍,填补了相关缺失的指标,发布了一个目前最全的benchmark。

TANet Performance

代码环境

  • pandas==0.22.0
  • nni==1.8
  • requests==2.18.4
  • torchvision==0.8.2+cu101
  • numpy==1.13.3
  • scipy==0.19.1
  • tqdm==4.43.0
  • torch==1.7.1+cu101
  • scikit_learn==1.0.2
  • tensorboardX==2.5

如何训练和测试

  • 炼丹是一个痛苦的过程,特别是像TANet这种的多分支网络,每个分支若设置相同的学习率,训练起来无法达到最优的性能,若单独手工设置各分支学习率,耗时又耗力,所以这里面我们用了微软的自动调参工具nni,网上有很多nni相关的使用教程,强烈推荐同学们使用这个工具,不仅能自动调参,还能替代TensorBoard对训练过程的各项指标可视化。
  • 如果你安装好了nni之后,训练时请配置好config.yml和超参数文件search_space.json,然后运行nnictl create --config config.yml -p 8999,训练的可视化后台可以在本地的http://127.0.0.1:8999http://172.17.0.3:8999 看到。
  • 如果你不想用这个工具训练或测试,只需要将代码中类似于param_group['lr']这样的超参数的中括号都改为param_group.lr就可以了。
  • PS:FLICKR-AES这个数据集上train的工作可能不会公开,因为目前和一个公司合作,相关的模型已经嵌入进系统中,有一些保密的需求。

其它

  • 事实上,以TAD66K为起点,后续还有很多工作可以尝试,即使是我们自己发布的TANet,性能也远未达到上限,因为TAD66K每个主题都对应了不同的评分规则,任务难度更大,这点可以在SRCC这种的指标上看出,目前只有0.513,有兴趣的同学,可以继续加油,把指标刷上去。
  • 我们实验室的主页:视觉机器人与智能技术实验室
  • 我的个人主页:博客知乎

如果你觉得这篇工作对你有帮助,请引用,不要白嫖-_-:

@article{herethinking,
  title={Rethinking Image Aesthetics Assessment: Models, Datasets and Benchmarks},
  author={He, Shuai and Zhang, Yongchang and Xie, Rui and Jiang, Dongxiang and Ming, Anlong},
  journal={IJCAI},
  year={2022},
}

快来尝试一下吧!

TANet.real-time.inference.video.1.mp4
TANet.real-time.inference.video.2.mp4
TANet.real-time.inference.video.3.mp4

组内其它工作

🎁 Projects 📚 Publication 🌈 Content ⭐ Stars
Pixel-level image exposure assessment【首个像素级曝光评估】 NIPS 2024 Code, Dataset Stars
Long-tail solution for image aesthetics assessment【美学评估数据不平衡解决方案】 ICML 2024 Code Stars
CLIP-based image aesthetics assessment【基于CLIP多因素色彩美学评估】 Information Fusion 2024 Code, Dataset Stars
Compare-based image aesthetics assessment【基于对比学习的多因素美学评估】 ACMMM 2024 Code Stars
Image color aesthetics assessment【首个色彩美学评估】 ICCV 2023 Code, Dataset Stars
Image aesthetics assessment【通用美学评估】 ACMMM 2023 Code Stars
Theme-oriented image aesthetics assessment【首个多主题美学评估】 IJCAI 2022 Code, Dataset Stars
Select prompt based on image aesthetics assessment【基于美学评估的提示词筛选】 IJCAI 2024 Code Stars
Motion rhythm synchronization with beats【动作与韵律对齐】 IJCAI 2024 Code, Dataset Stars
Champion Solution for AIGC Image Quality Assessment【NTIRE AIGC图像质量评估赛道冠军】 CVPRW NTIRE 2024 Code Stars