Skip to content

boostcampaitech5/level3_nlp_finalproject-nlp-06

 
 

Repository files navigation

Compress retrieved collection with DensePhrases

Overview

Overview

ODQA(Open-domain Question Answering)

  • 질의가 주어지면 주어진 질의에 답할 수 있는 문장들을 Retriever가 지식 베이스로부터 찾아 근거 문서를 구성하고, 구성된 근거 문서(source document)를 기반으로 Reader가 답변하는 시스템

DensePhrases

  • DensePhrases는 질의에 관련된 phrase를 찾는 Retrieval model입니다. 기존의 Dense retrieval model인 문서 전체를 하나의 벡터로 임베딩하는 DPR과 달리, DensePhrases는 phrase 단위로 임베딩 하기 때문에 더 적은 길이의 문서를 출력 할 수 있습니다.

Project Goal

  • mAR 증가를 통한 검색 최적화
  • Reader에게 전달되는 근거 문서의 길이를 최소화 하면서 정답 포함율을 유지함으로써 정답 생성에 필요한 비용을 절감합니다.

Members

김민호 김성은 김지현 서가은 홍영훈

Contribution

  • 김민호 : Query loss의 단위 변경, Loss의 구성 요소 추가
  • 김성은 : Query loss의 단위 변경, Dynamic Retrieval
  • 김지현 : Dataset 전처리, Query loss의 단위 변경, Knowledge Distillation
  • 서가은 : Query loss의 단위 변경, Dynamic Retrieval
  • 홍영훈 : Query loss의 단위 변경, Static Retrieval, Optimization

How to run

Demo

Demo

Detail

Acknowledgement

About

Compress retrieved documents collection with densephrase model

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 92.5%
  • Makefile 3.9%
  • HTML 2.3%
  • Shell 1.1%
  • CSS 0.2%