Day - 65
피어세션
1. 대회관련 정보 공유 (눈바디, 의료데이터톤)
2. 강의관련 질문 공유
학습회고
데이터 작업이 왜 중요한지, OCR관련 기술과 서비스로는 어떠한 것들이 있는지를 강의를 통해 알게되었다. 그리고 Software 1.0과 Software 2.0으로 나누어진다는 개념 또한 새롭게 알게되었다.
Day - 66
피어세션
1. 의료데이터톤에 참여하기위한 지원서를 작성
2. TMI 시간을 가짐
3. 강의관련 질문 공유
학습회고
글자 검출 대회에서 사용하는 EAST 모델의 구조를 이해하게 되었다. EAST 모델의 구조는 UNet과 비슷한 모양을 가지며 score map과 geometry map을 출력하여 loss를 계산하는 것을 알게되었다. 또한 후처리로는 NMS와는 다른 LANMS를 사용한다고 한다.
Day - 67
피어세션
1. 강의관련 질문 공유
2. TMI 시간을 가짐
학습회고
성능 평가 기준에 대한 강의를 보고 recall과 precision이 글자 검출 대회에서 어떻게 쓰이는지 알게 되었다. 또한 이 recall과 precision의 조화 평균 값까지 산출하여 평가에 계산한다. 2013년 초기에는 DetEval, 2015년부터 합집합을 교집합으로 나누는 IoU -> 영역이 부족하거나 과도한 부분에 대한 패널티를 주는 TIoU -> 글자 하나 하나에 대한 위치 정보를 계산하여 PCC의 개수에 따른 CLEval이 있다.
Day - 68
피어세션
1. 코테 문제 리뷰
2. 멘토링 진행 -> 앞으로의 진행에대한 구체적인 피드백
3. 팀원 역할 분담
4. 강의관련 질문 공유
실험일지
- 오늘 눈바디 대회 제출을 한 번 해봐야겠다. -> efficient_unit(d3) 제출함
- 오늘부터 글자 검출 대회 시작인데 강의를 너무 대충 본 것 같아 다시 한 번 제대로 봐야겠다. -> 진행하는데 있어서 근본적인 부분부터 해결해야하는데 빠져서 그런지 이것저것 할게 많아져서 그런지 빠르게 결과를 얻으려고 한거 같다. -> 다시 처음부터 생각해보자.
- 기존 json 파일이 있는데 annotation 작업 결과물에 있는 annotation.json은 뭐지... -> 기존 json 파일에 추가하는 거겠군...
Day - 69
피어세션
1. annotation 작업 결과물에 대한 데이터 검수 진행
2. 데이터를 종류별로 나누고 학습을 진행 & 계획
실험일지
- annotation 작업 결과물을 다운로드 받았는데 annotation.json 파일이 비어있음 -> 다시 다운로드 받으니 정상적으로 있음
- 구글 드라이브를 보니 dataset_revised 라는 파일이 올라와 있음 -> illegibillity 정보를 추가하여 다시 올린 파일이라고 함
- 각 팀원끼리 데이터를 나누어서 검수를 진행
- json파일을 보니 points가 3개미만이거나 홀수인 경우가 생김 -> 3개 미만일 경우 삭제하고 4개 초과이고 홀수 인 경우에는 illegibillity=True로 변경하는 것이 좋을 것 같음
- 데이터를 검수하여 labeling이 잘된 data와 검수하기 전의 data 등 다양한 dataset으로 학습을 진행
'Boostcamp AI Tech' 카테고리의 다른 글
[실험 일지 Day-69] P Stage - OCR (0) | 2021.11.22 |
---|---|
[실험 일지 Day-68] P Stage - OCR (0) | 2021.11.22 |
[Boostcamp Day-65] 데이터 제작의 중요성 (0) | 2021.11.12 |
[Boostcamp Day-66] EAST (0) | 2021.11.12 |
[Boostcamp Day-67] 성능 평가 기준 (0) | 2021.11.12 |