Skip to content

tongda/CraftBuddy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CraftBuddy / 智心匠,智能组装引导助手

演示视频

craft_buddy-demo.mp4

功能:

  1. 视频语义分割:根据教学视频,自动拆解步骤,
  2. 视频语义描述:根据提示,结合动作,生成动作指引;
  3. 视频语义比对:输入实际操作视频,和教学视频进行比对,生成改进建议;
  4. 视频语义解构:生成结构化时序场景图,用于下游应用分析;
  5. 视频语义生成:根据标准操作流程,生成视频指引。

数据集

实施路线

参考项目:

  • TimeChat(code, paper):从BLIP2架构演化而来,数据集主要是YouCook。考虑可以使用宜家组装数据集,重新训练一个针对组装类视频的VLM模型。

Video-LLaMA

  • VisualNarrationProceL(code, paper):专门针对指导类视频和文本之间进行步骤弱对齐的一篇文章。

image

  • HawkEye(paper, code):一个基于QFormer的Video Grounding(在视频中准确定位文本描述的片段起止时间的任务)模型,有点像在视频上做二分查找,先粗粒度判断目标事件发生在视频的哪一段,然后递归分析对应的片段直到整个片段都是目标事件结束。

  • InternVL(paper, code):更大的BLIP2,包括更大的ViT作为视频编码器,QFormer改成了QLLaMa,从32个learnable query增加到96个,模型参数量更大,等等。

实施计划:

阶段一:BLIP2 + InternLM2,实现图片VQA

目前大部分QFormer变体的模型,都是从LAVIS修改而来,LAVIS的代码质量比较高,可以从这个代码库开始搭建基础框架。

  • 使用BLIP2官方代码库,完整跑通BLIP2模型推理;
  • 使用BLIP2官方代码库,在本地环境跑通模型训练,使用coco和VG数据集(vg数据集加载的目录结构和BLIP2的DataLoader需要的不一样,暂时先不管了);
  • 修改BLIP2代码,把LLM模型换成InternLM2-1.8B,重新训练(文档记录);
  • 按照ImageTextDataset形式构建IKEA Assembly数据集;
  • 在BLIP2训练中加入IKEA Assembly数据集;
  • 评估模型效果。

阶段二:TimeChat + InterLM2,实现短视频的DenseCaptioning和VQA

在掌握BLIP2之后,开始改造TimeChat。

  • 跑通TimeChat推理;
  • 参考TimeIT数据集,构造IKEA Assembly数据集;
  • 使用InternLM2-1.8B模型替换LLM;
  • 实现Dense Captioning Demo;
  • 实现VQA Demo;
阶段性Demo

alt text

阶段三:实现长视频的Video Grounding

TBD

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published