Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Estudar "IFQA: Interpretable Face Quality Assessment" #78

Open
matheuslevi11 opened this issue May 17, 2024 · 1 comment
Open

Estudar "IFQA: Interpretable Face Quality Assessment" #78

matheuslevi11 opened this issue May 17, 2024 · 1 comment
Assignees

Comments

@matheuslevi11
Copy link
Collaborator

Estudar este paper que apresenta uma métrica de qualidade de imagem específica para face

@matheuslevi11 matheuslevi11 self-assigned this May 17, 2024
@matheuslevi11
Copy link
Collaborator Author

Este paper apresenta uma nova métrica para avaliação de qualidade facial, que é interpretável e considera características específicas de face, se diferenciando de outras métricas de qualidade e apresentando uma maior proximidade da percepção humana. Essa métrica serve para qualidade de face em geral, mas o contexto em que foi criada é o de reconstrução facial, sendo mais interessante nesse cenário, na minha opinião, podendo servir tanto para avaliar o desempenho de GAN’s de age transformation, como imagens gerada pelo DisVAE.

Anteriormente ao desenvolvimento deste trabalho, foi gerado uma pesquisa com humanos que constatou que a percepção humana de qualidade facial está altamente atrelada à estrutura geral e distorções nas regiões faciais primárias, como olhos, nariz e boca. Portanto, o método proposto prioriza estas regiões. Neste trabalho, os autores utilizam uma arquitetura adversarial para gerar um mapa de qualidade de face interpretável, em que cada pixel possui um score da região da face correspondente e a métrica final é a média de todos os pixels do mapa.

Na imagem abaixo, podemos observar com clareza que as imagens B possuem maior qualidade. Entretanto, métricas como PSNR e SSIM atribuem maiores valores para as imagens A.
image

Em uma etapa anterior ao treinamento, as imagens do dataset FFHQ passam por um processo de corrupção para se tornarem imagens de baixa qualidade ( LQ ). Neste processo, é aplicado nestas imagens uma convolução com um kernel gaussiano ou motion-blur, seguido de um downsampling e da adição de um ruído gaussiano. Por fim, essas imagens são convertidas em JPEG. No treinamento, o Generator ( encoder-decoder ) vai ser treinado para restaurar imagens LQ para imagens HQ, ao passo que o Discriminator irá classificar as regiões da imagem entre HQ e LQ ( real e fake, fazendo alusão ao discriminator tradicional ). Um ponto importante é que ele classifica cada pixel da imagem, ao invés da imagem inteira, isto é o que dá a característica de interpretável ao método, isto é feito com uma arquitetura similar a U-Net.

Por fim, também tem um método de aumento de dados chamado Facial Primary Regions Swap (FPRS) em que regiões aleatórias da face são escolhidas e trocadas entre as imagens de alta qualidade e as imagens de baixa qualidade. Na imagem abaixo, temos um exemplo de FPRS e como essa mudança reflete no mapa de qualidade da imagem ( amarelo é alta qualidade e roxo é baixa qualidade ).

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant