Skip to content

Latest commit

 

History

History
50 lines (29 loc) · 2.2 KB

README.md

File metadata and controls

50 lines (29 loc) · 2.2 KB

中文长文本摘要任务数据集收集

欢迎访问本数据集仓库!本项目旨在收集用于中文长文本摘要任务的数据集,以支持后续的研究和模型训练。当前数据集主要涵盖以下几个领域:

  • 法律:包含与法律相关的长文档,平均字数约为500字。
  • 医学:涉及医学领域的文本,平均字数约为500字。
  • 真人对话:收录真实对话的文本,平均字数约为500字。
  • 期刊论文:包含长篇期刊论文,字数在1万字以上。

数据集特性

  • 领域多样性:数据集覆盖法律、医学、对话和学术论文等多个领域,以增强模型的适应性和泛化能力。
  • 内容丰富:各领域数据源丰富,确保所提供文本的多样性和代表性。
  • 后续扩展:未来将针对特定格式文本的摘要数据集进行补充,以满足不同研究需求。

模型微调

在收集到的数据集基础上,我们计划对现有的预训练模型进行微调,以适应特定领域的长文本摘要任务。这将有助于提高模型在实际应用中的表现。

贡献与合作

欢迎有兴趣的研究者和开发者参与到本项目中来,共同丰富和完善数据集。如有数据贡献或合作意向,请联系我。

感谢您的关注与支持!希望本数据集能够为中文长文本摘要任务的研究提供有价值的支持。

Question

不要写数据集丰富什么的,这个库还在建设过程中

Answer

中文长文本摘要任务数据集收集

欢迎访问本数据集仓库!本项目旨在收集用于中文长文本摘要任务的数据集,目前仍在建设过程中。

数据集内容

当前包含以下几个领域的文本数据:

  • 法律:平均字数约500字。
  • 医学:平均字数约500字。
  • 真人对话:平均字数约500字。
  • 期刊论文:字数在1万字以上。

后续计划

后续我们将对特定格式的文本摘要数据集进行补充,并计划对现有的摘要集合进行微调,以适应特定领域下的长文本摘要任务。

感谢您的关注与支持!请注意,这个仓库仍在建设之中,欢迎有兴趣的研究者参与讨论。