Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Modify performance evaluation #5

Open
daegonYu opened this issue Oct 4, 2024 · 1 comment
Open

Modify performance evaluation #5

daegonYu opened this issue Oct 4, 2024 · 1 comment

Comments

@daegonYu
Copy link

daegonYu commented Oct 4, 2024

BAAI/bge-m3 과 nlpai-lab/KoE5 를 PR 로 추가하셨는데 제가 평가 해봤을때는 점수가 다르게 나옵니다. AutoRAG에서 직접평가하신 gte-multilingual-base도 평가해봤습니다만 그것은 소수점까지 모두 일치합니다. BAAI/bge-m3 과 nlpai-lab/KoE5 모델을 재평가해보심이 어떨까요..
평가 코드는 아래와 같이 각 모델에 맞게 prefix를 설정하여 평가하였습니다.
dragonkue/BGE-m3-ko 모델이 현재 이 벤치마크에서 가장 우수한 성적을 내고 있는 것 같습니다. 이 모델의 결과를 추가하시는 것이 어떠신지요? 모델의 결과는 허깅페이스에 공개되어있습니다.(https://huggingface.co/dragonkue/BGE-m3-ko)

autorag.embedding_models['bge_m3'] = autorag.LazyInit(HuggingFaceEmbedding,
                                                                model_name="BAAI/bge-m3")
autorag.embedding_models['gte-multilingual-base'] = autorag.LazyInit(HuggingFaceEmbedding,
                                                                model_name="Alibaba-NLP/gte-multilingual-base",trust_remote_code=True)
autorag.embedding_models['KoE5'] = autorag.LazyInit(HuggingFaceEmbedding,
                                                                model_name="nlpai-lab/KoE5", query_instruction='query: ', text_instruction='passage: ')
    
@daegonYu
Copy link
Author

daegonYu commented Oct 4, 2024

아래 summary.csv는 위의 코드로 평가했을 때의 결과입니다.

summary.csv

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant