[논문리뷰] HalluMeasure: Fine-grained Hallucination Measurement Using Chain-of-Thought Reasoning #18
Replies: 1 comment
-
MethodHalluMeasure의 작동 방식은 이렇습니다.
각각에 대해 좀 더 자세히 알아볼까요? LLM 답변으로부터 주장 추출하기가장 첫 단계는 LLM의 답변을 일련의 주장들로 분해하는 것입니다. 이 '주장'을 어떻게 정의해야 할까요? 이 논문에서는 '주장'은 atomic하고 comprehensive한 특징을 가져야 한다고 말합니다.
그리고 연구진은 또다른 LLM 모델을 이용해서 답변을 주장으로 분해하는 작업을 수행했습니다. 이를 위해, 프롬프트에 다음과 같은 규칙들을 명시해주었습니다.
아래 스크린샷은 이 과정을 통해 텍스트를 주장들로 바꿔본 것입니다. 주장의 환각 여부 라벨링하기다음 단계에서는 각 주장 (또는 전체 답변)의 환각 여부를 판단합니다. LLM에 기준이 되는 텍스트(reference text)와 주장들을 input으로 넣고, 각 주장에 대해 5가지 라벨 중 하나를 붙이도록 합니다.
또한, 틀린 주장들의 경우 환각이 어디서 어떻게 나타났는지 비교하기 위해 10가지 세부 유형을 추가로 라벨링했습니다. 이 10개의 세부 유형은 Number, Entity, False Concatenation, Attribution Failure, Overgeneralization, Reasoning Error, Hyperbole, Temporal, Context-based meaning error, Other 입니다. 이 라벨링을 하는 프롬프트에는 몇 가지 변주를 주었는데요. CoT가 적용됐는지/아닌지와 주장 하나씩 평가/모든 주장을 한번에 평가의 두 가지 측면을 시험해보았습니다. 이렇게 총 4가지 프롬프트를 가지고 결과를 비교해볼 것입니다. 환각 지표 계산하기이렇게 각 주장들에 대해 평가를 하고 나면, hallucination rate를 계산할 수 있게 됩니다. 이 연구에서는 환각 현상을 측정하기 위해 두 가지 지표를 사용했습니다.
Experiments & Results실험 결과
Personal Thoughts
|
Beta Was this translation helpful? Give feedback.
-
Abstract
[문제] 모든 답변에 대한 평가가 필요하기 때문에 LLM의 할루시네이션을 자동으로 측정하는 것은 어렵다.
[방안] LLM의 답변을 단순하게 분할하여 (atomic claim) 질문과 관련된 reference text로 평가하는 메커니즘 제시 (HalluMeasure)
Introduction
LLM에서 발생하는 할루시네이션으로 인한 악영향을 줄이기 위해 다양한 방식의 평가모델이 등장했으나 본 연구에서 더 좋은 성능으로 개선함
→ 프롬프트 엔지니어링을 추가해 차별화를 했고 성능이 더 좋음
→ batch 프롬프팅으로 여러 claim을 한번에 처리, 성능은 유지하면서 비용을 줄임
RQ에 답하면서 성능 평가 및 모델 분석
Key Contributions
Related Work
할루시네이션에 대한 연구 분야
주요 데이터셋
대부분의 연구는 text summarization (뉴스기사 요약) 데이터에 집중하고 있음
동향
이전: pretrained/finetunned model or NLI, Question Answer Generation metrics(Y/N 질문 평가) 활용
최근: LLM으로 답변 분류기를 만들어 할루시네이션을 분류함
Beta Was this translation helpful? Give feedback.
All reactions