-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
텍스트데이터를 다루는 코드의 정확도를 높이는 시도 #3
Comments
현재 우울증/불안장애/자살 3가지의 분류로 한국어 데이터 300개/100개/100개 정도 수집 및 작성하였는데, |
네 그러면 RD,RS로 나누어서 2개의 그룹을 Augmentation로 생성하고 |
네 알겠습니다. 그리고
|
|
우선 우울증/자살/불안장애 세가지 분류로 데이터 전처리 및 augmentation 진행해본 거 업로드 하였습니다. |
우선 제가 전처리했던 우울증/자살/불안장애 분류의 RD+RS Augmentation 진행된 데이터로 테스트해본 결과입니다. 3 epochs 으로 짧게 학습시켜봤는데 trainingset:98, testset:97로 너무 정확도 높은 결과가 나와서, Augmentation 자체는 결과에 긍정적으로 작용한 것 같습니다만, 근본적으로 데이터가 많지 않아서 일반화가 잘 된 모델이라고만은 할 수 없을 것 같습니다. 그래도 테스트 해본 결과 새로운 문장에 대한 예측은 나름 잘 되는 것으로 보입니다! 그리고 이건 단순히 자살/불안장애/우울증 세가지 분류의 데이터만으로 학습/추론을 한 것이기 때문에 일반적으로 중립적인 문장이 섞여 있을 경우에는 어떻게 결과가 나올지 시험해봐야할 것 같습니다. |
original RS RD RD+RS 모두 테스트해본 결과, RS가 결과가 제일 잘 나오는 것 같습니다 그리고 추가적으로 1. 근본적으로 데이터가 부족한 문제, 2. 우울증 분류의 데이터가 더 많아서 그런지, 테스트문장을 우울증으로 분류하는 결과가 더 많이 나오는 문제, 3. 중립적인 문장도 추가하여 분류 |
증상자의 질환이 구체적으로 우울/자살/불안장애로 나눌 때 유용할 것 같습니다. 그런데 유증상자인지 무증상자인지 자체를 판단할 수 있을 때, 감정 개수가 2개가 아니라 다양한 경우에는 원래 전체적인 정확도가 낮은 것 같다는 생각이 듭니다. 예를 들어 다음 모델에서는 행복이 80%대인데 반해 평균은 50%대입니다. F1 score를 전체적인 스칼라로 구하는 게 아니고 감정별로 각각 구합니다. 그러면 이렇게 감정 반응이 크게 감지되는 행복과 비행복 2개로만 즉 감정 종류를 줄여서 분류하면 훨씬 좋은 결과를 보일 수 있을 것 같습니다: https://github.com/JhnLee/pytorch-bert-korean |
목적
상세내용
참고사항
The text was updated successfully, but these errors were encountered: