한 게시글에 파일이 한 개인 경우만 크롤링하기로 결정함.
형사 단어가 포함된 6428개의 판결문 크롤링.
형사케이스가 아닌데 형사 단어가 포함되어 크롤링 된 경우는 주문 처리할 때 제거될 예정.
2-1. PDF 사이즈 조절 <<8/2 완료>>
2-2. PDF(텍스트) -> 엑셀 <<8/2 완료>>
2-3. PDF(이미지) -> 엑셀(정확도 높히기/OCR) <<8/3 ~ 8/5 완료>>
6-1 <<8/10 ~ 8/11 완료>>
사건: 법과 같은 경우
제목: 필요없는 날짜, 사건번호 등 삭제
피고인: 일단 한 번 해보자 무슨 정보가 있나 ==> 없다.
주문: 형량 집유 벌금 항소 분리해서 체크
필요없는 칼럼 삭제
텍스트 제외 칼럼의 모든 정보를 수치로 전환 확인
6-2. 사건과 법 따로 엑셀 만들기 <<8/14 완료>>
7-1. 글에서 한글을 제외한 문자, 반복 상위 64/128개의 문자 제거/ 제목과 본문을 하나의 text로 합침
7-2. tf-idf
7-3. word2vec 모델 생성
7-3-1. fasttext 모델 생성
7-4. doc2vec 모델 생성 (성능 확인할 필요 있음)
-목표
- 형량 예측
- 집행유예 여부 예측
- 벌금 예측
- 항소 기각 여부 예측
- 비슷한 사례의 판결문 제공
-결과
1) 형량: 480개월 이하 징역에 대해서 rmse=20, mae=10
2) 집행유예: acc 92%.
3) 벌금: 385원부터 558억까지 분포가 데이터양에 비해 지나치게 방대하여 mape가 70에 가까움.
4) 항소: acc91%.
5) 비슷한 사례의 판결문 제공: doc2vec으로 자체 테스트
-웹 서버 구축
-서비스 처리 화면 구현