Skip to content

Latest commit

 

History

History
24 lines (20 loc) · 1020 Bytes

similarity_algorithm.md

File metadata and controls

24 lines (20 loc) · 1020 Bytes

유사도 측정 알고리즘

단어를 기반으로 유사도 점수를 측정하는 알고리즘에 대해 알아본다.

TF/IDF

유사도 스코어를 TF * IDF 로 계산한다

TF(Term Frequency)

tf

  • 한 문서내 특정 단어의 빈도수

IDF(Inverse Document Frequency)

idf

  • 전체 문서내 특정 단어의 빈도수의 역수
  • 전체 문서 내에서 빈도수가 높으면 불용어일 확률이 높기 때문이다
  • 문서수 N이 커질수록 IDF가 커지기 때문에 로그 처리를 해준다

BM25

bm25

  • TF/IDF 를 개선한 알고리즘
  • 기존의 스코어 알고리즘에서 가중치를 가해줘서 정확도를 높였다

장점

  • TF의 영향이 줄어든다 -> TF가 일정 수준을 넘어가면 가중치가 일정값으로 수렴한다
  • DF의 영향이 커진다 -> 불용어가 검색 점수에 영향을 덜 미친다.
  • 문서 길이의 영향이 줄어든다 -> 문서 길이를 검색에 사용한다.