Model 변경
1. "swin_large_patch4_window7_224" 모델을 사용하여 이전에 cutmix로 성과를 얻은 방법으로 다시 실험 -> 12 epoch 이후로 계속 valid score가 떨어지는 현상이 나타남 -> cutmix 비율을 30%에서 20%로 줄이고 다시 실험 -> wave 폭이 커지는 현상이 나타나서 중간에 중단(대회 종료까지 시간이 얼마안남았기 때문) -> 레이어의 깊이가 깊어질 수록 overfitting의 위험이 높아지기 때문에 generalization 또한 높게 주어야한다는 생각을 해서 cutmix 비율을 50%로 변경 후 재실험 -> 6epoch 이후부터 30%를 적용했을 때와 비슷한 그래프 모양을 띔 -> 10 epoch 지점의 checkpoint.pt로 inference를 진행
2. 이전에 실험했던 resnet50과 swin_large_patch4_window7_224가 parameter 수나 레이어의 깊이 차이가 많이나는 탓에 성능 향상이 잘 안되었다고 생각 -> 모델을 resnet152로 변경하고 cutmix는 30%를 적용 -> overfitting이 발생 -> 일반화를 더 세게 줘서 overfitting의 위험을 낮추기위해 마스크를 쓴 중년층에 50%, 마스크를 쓴 젊은층에 20%를 적용 -> 그래프상 train의 score가 높게 나오고 valid score가 낮게 나옴과 동시에 높은 score가 나오는 것을 보고 overfitting이라고 판단, 하지만 그래프가 수평적인 모양을 유지하기 때문에 lr과 weight decay, cutmix 비율을 잘 조절하면 성과가 나올 것이라고 생각
3. eifficientnet_b7 모델을 사용하고 cutmix는 중년층에 30%, 젊은층에 10%를 적용하고 lr=5e-5, weight_decay=1e-3을 지정해주었다(이전에는 weight_decay를 20으로 잘못 주고 있어서 일반화가 잘 안되었다고 판단....) -> training score에서 overfitting이 여전히 발생하고 그래프 상 웨이브 폭이 커서 일반화가 잘 안되었다고 판단
'Boostcamp AI Tech' 카테고리의 다른 글
[Wrap-up report] Image Classification (0) | 2021.09.03 |
---|---|
[실험 일지 작성_목] Image Classification (0) | 2021.09.02 |
[실험 일지 작성_화] Image Classification (0) | 2021.09.01 |
[실험 일지 작성_월] Image Classification (0) | 2021.08.31 |
[주말 실험 일지_일] Image Classification (0) | 2021.08.30 |