Skip to content

Latest commit

 

History

History
42 lines (28 loc) · 1.47 KB

lib-ai-app-community-rag.md

File metadata and controls

42 lines (28 loc) · 1.47 KB
title tags created modified
lib-ai-app-community-rag
ai
community
rag
2024-09-08 20:08:04 UTC
2024-09-08 20:08:16 UTC

lib-ai-app-community-rag

guide

discuss-stars

discuss-solutions

discuss

  • 开源的 llm 系统里,带知识库功能的,目前还没找到一个做的好的。

  • https://x.com/wwwgoubuli/status/1830227047173751206

    • 不过这么说倒也不是要贬低什么,我自己帮客户定制过的知识库中,做的稍微好一点的,也投入了大量的精力和成本来实现数据预处理,单单一个文本分段都找不到通用范式,得大量定制。
  • 问题就是 to b 里。 to c 那一个用户丢个 pdf 算不上什么知识库。 到了 to b 领域,你看着一堆 excel ,pdf, 你的梦魇才刚开始

  • 我们自己做售后客服机器人,起步是找实习生撸了1万条问答对,上线后每周根据bad case迭代继续做数据。这玩意效果就是看标注数据,想要好的效果,就好好做数据。

  • 知识库如果像编程语法手册一样,那rag效果会非常好,如果像散文诗,rag效果就会很差。我们拿到手的文档一般介于两者之间,所以想提高rag效果,只好把文档本身往编程语法手册方向改

  • 我现在最头疼的是pdf文档,里面全是图片的那种。,

    • 让甲方加钱,图片到文字的转换不仅需要工具,还需要人工审阅,不加钱没法干