Skip to content

Latest commit

 

History

History
88 lines (75 loc) · 2.58 KB

계획 및 진행상황.md

File metadata and controls

88 lines (75 loc) · 2.58 KB

데이터 저장

1. 판결문 저장 <<8/1 완료>>

한 게시글에 파일이 한 개인 경우만 크롤링하기로 결정함.
형사 단어가 포함된 6428개의 판결문 크롤링.
형사케이스가 아닌데 형사 단어가 포함되어 크롤링 된 경우는 주문 처리할 때 제거될 예정.

2. PDF -> 엑셀

2-1. PDF 사이즈 조절 <<8/2 완료>>
2-2. PDF(텍스트) -> 엑셀 <<8/2 완료>>
2-3. PDF(이미지) -> 엑셀(정확도 높히기/OCR) <<8/3 ~ 8/5 완료>>






데이터 전처리

3. 판결문의 항목별로 text를 분리하여 파일에 칼럼별로 저장 <<8/6 ~ 8/10 완료>>


4. OCR로 전환한 파일의 맞춤법 검사 <<8/5 ~ 8/7 완료>>


5. 판결문 body에서 언급된 법 추출 <<8/10 완료>>


6. 칼럼별 정보 정제

6-1 <<8/10 ~ 8/11 완료>>
사건: 법과 같은 경우
제목: 필요없는 날짜, 사건번호 등 삭제
피고인: 일단 한 번 해보자 무슨 정보가 있나 ==> 없다.
주문: 형량 집유 벌금 항소 분리해서 체크
필요없는 칼럼 삭제
텍스트 제외 칼럼의 모든 정보를 수치로 전환 확인
6-2. 사건과 법 따로 엑셀 만들기 <<8/14 완료>>

7. 판결문 제목 및 본문 핵심정보 추출 작업 <<8/11 ~ 8/14 완료>>

7-1. 글에서 한글을 제외한 문자, 반복 상위 64/128개의 문자 제거/ 제목과 본문을 하나의 text로 합침
7-2. tf-idf
7-3. word2vec 모델 생성
7-3-1. fasttext 모델 생성
7-4. doc2vec 모델 생성 (성능 확인할 필요 있음)

8. 수치, 텍스트 EDA <<8/14 ~ 8/15 완료 >>







데이터로 모델링하기

10. 목표별 모델링(형량, 집해유예, 벌금, 항소 각각 따로) <<8/16 ~ 8/31 완료>>

-목표

  1. 형량 예측
  2. 집행유예 여부 예측
  3. 벌금 예측
  4. 항소 기각 여부 예측
  5. 비슷한 사례의 판결문 제공

-결과
1) 형량: 480개월 이하 징역에 대해서 rmse=20, mae=10
2) 집행유예: acc 92%.
3) 벌금: 385원부터 558억까지 분포가 데이터양에 비해 지나치게 방대하여 mape가 70에 가까움.
4) 항소: acc91%.
5) 비슷한 사례의 판결문 제공: doc2vec으로 자체 테스트







결과화면 구축(flask로 할 예정) <<8/27 ~ 8/31 완료>>

-웹 서버 구축
-서비스 처리 화면 구현