Skip to content
This repository has been archived by the owner on Oct 14, 2021. It is now read-only.

속담이 사용될 가능성이 있는 모든 문장 수집 #42

Open
1 of 4 tasks
ArtemisDicoTiar opened this issue Oct 2, 2021 · 3 comments
Open
1 of 4 tasks
Assignees

Comments

@ArtemisDicoTiar
Copy link
Member

ArtemisDicoTiar commented Oct 2, 2021

TL;DR

온갖 한글 텍스트 데이터를 수집하자.

WHY?

엘라스틱 서치 구축이 완료되었고 관련된 논문 내의 내용 구현도 곧 완료 될것으로 보인다.
데이터 수집 방법에 대한 모색이 필요하다.

WHAT?

속담이 사용될 가능성이 있는 모든 데이터를 수집하면 된다.

  1. 우선 사용 신청을 해야하는 모두의 말뭉치는 빠른 시일내에 연구목적으로 재신청하고
    (지난 번 신청이 반려? 되었던 점을 고려해서 구체적으로 써보려한다.)
  2. AIHub는 회원가입하면 바로 사용할 수 있을 것 같아보인다. 사용가능한 데이터들을 바로 수집을 하자.
  3. 경진대회에 공개된 데이터도 참고해보자.
    a. Kaggle
    b. Dacon

TODOs

  • 모두의 말뭉치 데이터 신청
  • AIhub 데이터 수집
  • kaggle에서 사용할 만한 데이터 탐색
  • Dacon에서 사용할 만판 데이터 탐색
@ArtemisDicoTiar ArtemisDicoTiar self-assigned this Oct 2, 2021
@ArtemisDicoTiar
Copy link
Member Author

기계독해

ES에 업로드 완료!
Screenshot 2021-10-08 at 9 42 16

Screenshot 2021-10-08 at 9 42 01

@teang1995
Copy link
Member

문장 구분 할 때 쓰면 좋을 듯?
https://docs.likejazz.com/kss/

@ArtemisDicoTiar
Copy link
Member Author

ArtemisDicoTiar commented Oct 9, 2021

kss

놀랍게도 설치할때 모든 디팬던시를 설치하지 않는다.
regex가 필요하다. pip install regex로 설치하자 (어쩌면 파이썬 버전 문제일 수도 있지만 만약에 에러가 난다면 이렇게 설치하자)

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants