这是我们组在IJCAI 2022关于图像美学评估最新的一篇工作:
因我个人热衷于开源,希望更多的小伙伴关注到这篇工作,故额外写了一篇中文的介绍,不要忘记给我们一个小星星哦,Star一下吧!我们组在ICCV2023的最新工作:链接
- 简要版:一个新的美学数据集,6万6千张左右图像,按主题分类标注。
- 太长不看版:以主题为核心,以开源为理念,我们建立了一个包含6万6千张左右图像的数据集,可用于图像美学评估。建立这样一个数据集的初衷,源自于组内同学在标注图像美感时的困惑,我们如何去评价一朵花和一个人之间美感的区别呢?显然,不同主题的图片,通常包含了不同的评分规则,标注人员在标注图像的过程中,隐性的会考虑到当前图像的主题,但现有的数据集,通常将所有类别的图像混合在一起进行标注,这可能会引入大量的噪声。因此,我们通过半年多的时间,收集,整理和标注了一批图片,包含了47种常见的主题,每个主题包含1千张以上的图像,各个主题的图像分开标注,每张图像至少被1200以上的人浏览和评价过,计算出平均分作为分数。
- 你可以从这里下载到数据集和标注分数 here,如果失效了,记得cue我,每张图像的最大边按等比放缩至800,标注文件都按主题类别分开整理好了。
- 百度网盘:链接:https://pan.baidu.com/s/1bAiDMwKLF_vLZKelz5ZfRg 提取码:8888
- 简要版:在通用美学数据集AVA,个性化美学数据集FLICKR-AES, 以及自建的数据集TAD66K,全SOTA。
- 太长不看版:我们提出了一个以主题为核心的网络架构TANet,在搭建这个网络的过程中,希望其能提取出当前图像的主题用于进一步的美感评估,因此将一个百万级别的数据集Place用来预训练我们其中的一个分支。Place数据集包含多数现实场景,虽然场景无法直接等效于主题,但据我们所知,这是目前最好的能进行主题感知的方法。值得注意的是,我们发现经过预训练的分支会出现注意力弥散现象,这会导致费尽力气预训练获得的主题感知能力丧失,这一点在此前用ImageNet进行预训练的工作中也有体现,因此我们会将该分支直接冻结。为了让网络能够自适应的利用主题信息,融合的权重是其学习得到的;为了能够让其获得图像中不同区域色彩的分布及关系信息,我们专门加了一个类似自注意力机制的分支。
- 在对比性能时,此前的工作对比指标通常不统一,我们索性把所有发布了开源代码的工作都自己跑了一遍,填补了相关缺失的指标,发布了一个目前最全的benchmark。
- pandas==0.22.0
- nni==1.8
- requests==2.18.4
- torchvision==0.8.2+cu101
- numpy==1.13.3
- scipy==0.19.1
- tqdm==4.43.0
- torch==1.7.1+cu101
- scikit_learn==1.0.2
- tensorboardX==2.5
- 炼丹是一个痛苦的过程,特别是像TANet这种的多分支网络,每个分支若设置相同的学习率,训练起来无法达到最优的性能,若单独手工设置各分支学习率,耗时又耗力,所以这里面我们用了微软的自动调参工具nni,网上有很多nni相关的使用教程,强烈推荐同学们使用这个工具,不仅能自动调参,还能替代TensorBoard对训练过程的各项指标可视化。
- 如果你安装好了nni之后,训练时请配置好config.yml和超参数文件search_space.json,然后运行nnictl create --config config.yml -p 8999,训练的可视化后台可以在本地的http://127.0.0.1:8999 或 http://172.17.0.3:8999 看到。
- 如果你不想用这个工具训练或测试,只需要将代码中类似于param_group['lr']这样的超参数的中括号都改为param_group.lr就可以了。
- PS:FLICKR-AES这个数据集上train的工作可能不会公开,因为目前和一个公司合作,相关的模型已经嵌入进系统中,有一些保密的需求。
- 事实上,以TAD66K为起点,后续还有很多工作可以尝试,即使是我们自己发布的TANet,性能也远未达到上限,因为TAD66K每个主题都对应了不同的评分规则,任务难度更大,这点可以在SRCC这种的指标上看出,目前只有0.513,有兴趣的同学,可以继续加油,把指标刷上去。
- 我们实验室的主页:视觉机器人与智能技术实验室。
- 我的个人主页:博客,知乎。
@article{herethinking,
title={Rethinking Image Aesthetics Assessment: Models, Datasets and Benchmarks},
author={He, Shuai and Zhang, Yongchang and Xie, Rui and Jiang, Dongxiang and Ming, Anlong},
journal={IJCAI},
year={2022},
}
TANet.real-time.inference.video.1.mp4
TANet.real-time.inference.video.2.mp4
TANet.real-time.inference.video.3.mp4
🎁 Projects | 📚 Publication | 🌈 Content | ⭐ Stars |
Pixel-level image exposure assessment【首个像素级曝光评估】 | NIPS 2024 | Code, Dataset | |
Long-tail solution for image aesthetics assessment【美学评估数据不平衡解决方案】 | ICML 2024 | Code | |
CLIP-based image aesthetics assessment【基于CLIP多因素色彩美学评估】 | Information Fusion 2024 | Code, Dataset | |
Compare-based image aesthetics assessment【基于对比学习的多因素美学评估】 | ACMMM 2024 | Code | |
Image color aesthetics assessment【首个色彩美学评估】 | ICCV 2023 | Code, Dataset | |
Image aesthetics assessment【通用美学评估】 | ACMMM 2023 | Code | |
Theme-oriented image aesthetics assessment【首个多主题美学评估】 | IJCAI 2022 | Code, Dataset | |
Select prompt based on image aesthetics assessment【基于美学评估的提示词筛选】 | IJCAI 2024 | Code | |
Motion rhythm synchronization with beats【动作与韵律对齐】 | IJCAI 2024 | Code, Dataset | |
Champion Solution for AIGC Image Quality Assessment【NTIRE AIGC图像质量评估赛道冠军】 | CVPRW NTIRE 2024 | Code |