Skip to content

Joining-AI/Awesome-SyntheticData

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

55 Commits
 
 
 
 
 
 

Repository files navigation

Awesome-SyntheticData

Awesome-SyntheticData Logo

一个致力于收集和整理合成数据资源的优秀仓库

Stars Forks Issues License


网站链接

请访问我们的网站了解更多信息:Awesome-SyntheticData 网站

目录

介绍

Awesome-SyntheticData 是一个集合了关于合成数据的优秀资源的仓库。合成数据在现代数据科学、机器学习和人工智能领域中发挥着重要作用。这个仓库旨在提供一个全面的资源列表,帮助研究人员、工程师和爱好者更好地理解和利用合成数据。

整体框架

合成数据

合成数据的需求

Lean合成

  1. Lean Workbook:大规模的自然语言数学形式化
  2. Lean Reasoner:使用Lean提高复杂推理能力
  3. Lean Automation:自动形式化
  4. 基于Putnam 数学竞赛的神经定理证明器评测集
  5. TheoremLlama: 端到端的通用LLM训练为lean4专家框架
  6. lean github: 几乎穷github中的lean仓库的数据集
  7. alphaproof 基于Lean的AI数学模型达到IMO银牌水平

其他合成数据

  1. 通过检索和转换现有数据集获得更好的合成数据

#rlhf-数据

搬运自Intel tech:

  1. 使用表格数据prompt改进RAG和LLM
  2. 四种清洗数据的方式
  3. 优化向量数据库

数据灌注

DeepMind Alpha系列

  1. 奥林匹克几何求解
  2. LLM+神经算法推理器
  3. alphaproof 基于Lean的AI数学模型达到IMO银牌水平

Agent数据管线

  1. 使用十亿个Agent合成数据
  2. DataDreamer 一套Python LLM数据管线框架

贡献指南

欢迎任何形式的贡献!如果你有优秀的资源推荐或改进建议,请提交 Pull Request 或 Issue。

  1. Fork 仓库
  2. 创建你的分支 (git checkout -b feature/AmazingFeature)
  3. 提交你的修改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 打开一个 Pull Request

许可

本项目基于 MIT 许可证 进行分发。详情请参见 LICENSE 文件。

Releases

No releases published

Packages

No packages published