GitHub - BingliangLi/wav2lip_vq: wav2lip in a Vector Quantized (VQ) space

Wav2lip in a compact Vector Quantized (VQ) space

VQGAN
https://github.com/CompVis/taming-transformers
- debugging custom models #107
- fine-tune based on [vqgan_imagenet_f16_1024]
- https://heibox.uni-heidelberg.de/d/8088892a516d4e3baf92/
image_size = 256
syncnet_vq.py
- face_encoder: (B, T x 256, 16, 16) -> (B, 512, 1, 1)
- audio_encoder: (B, 1, 80, 16) -> (B, 512, 1, 1)
color_syncnet_train_vq.py
- vqgan config / ckpt

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
data		data
evaluation		evaluation
face_detection		face_detection
filelists		filelists
models		models
.gitignore		.gitignore
README.md		README.md
audio.py		audio.py
color_syncnet_train.py		color_syncnet_train.py
color_syncnet_train_vq.py		color_syncnet_train_vq.py
get_filelist.py		get_filelist.py
hparams.py		hparams.py
hq_wav2lip_train.py		hq_wav2lip_train.py
inference.py		inference.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
wav2lip_train.py		wav2lip_train.py

Provide feedback