728x90
HRNet (High Resolution Network)
위치 정보가 중요한 Visual Recognition 문제 (segmentation, object detection, pose estimation 등)에 사용
1. 문제점
- 기존 Classification Network 사용에 필요했던 높은 time complexity
- Upsampling을 이용해 저해상도로부터 고해상도로 복원하며 생성되는 특징은 공간 상에서 위치 정보의 민감도가 낮음
- High Resolution의 위치 정보를 갖는 Visual Recognition 문제에 적합한 구조 HRNet이 제시됨
2. 구조
- 전체 과정에서 고해상도 특징을 계속 유지
- 입력 이미지에 Strided Convolution을 이용해 해상도를 1/4로 줄임 (전체 구조에서 1/4 해상도를 유지)
- U-Net과 DeepLab v3+의 경우 해상도가 각각 1/20, 1/16으로 감소
- 고해상도부터 저해상도까지 다양한 해상도를 갖는 특징을 병렬적으로 연산 (Parallel Multi-Resolution Convolution Stream)
- 고해상도 Convolution Stream을 시작으로 점차 해상도를 줄여 저해상도 Stream을 새롭게 생성
- 새로운 Stream이 생성될 때 해상도는 이전 단계 해상도의 1/2로 감소
- 해상도를 줄여 넓은 Receptive Field를 갖는 특징을 고해상도 특징과 함께 학습
- 다중 해상도 정보를 반복적으로 융합 (Repeated Multi-Resolution Fusions)
- 각각의 해상도가 갖는 정보를 다른 해상도 Stream에 전달하여 정보를 융합
- 고해상도 특징 : 공간 상의 높은 위치 정보 민감도를 가짐
- 저해상도 특징 : 넓은 Receptive Field로 인해 상대적으로 풍부한 의미 정보를 가짐
- 고해상도 정보를 저해상도에 전달 : Strided Convolution 연산 (정보 손실을 최소화)
- 저해상도 정보를 고해상도에 전달 : Bilinear Upsampling 및 1x1 Convolution 연산
- HRNetV1
- 저해상도를 제외한 고해상도 특징만을 최종 출력으로 사용
- Pose Estimation 문제에 활용
- HRNetV2
- 저해상도 특징들을 bilinear upsampling을 통해 고해상도 크기로 변환 후 모든 특징들을 합하여 출력
- Semantic Segmentation 문제에 활용
- HRNetV2p
- HRNetV2의 결과에서 추가로 Down Sampling한 결과를 출력
- HRNetV2p는 Faster-RCNN 등의 backbone으로 사용되어 Object Detection 문제에 활용
728x90
'Boostcamp AI Tech' 카테고리의 다른 글
[Boostcamp 13주차] 피어세션과 학습 회고 & 실험일지 (0) | 2021.10.29 |
---|---|
[Boostcamp Day-56] Semantic Segmentation 연구 동향 (0) | 2021.10.29 |
[주말 실험 일지 - 일] Pstages - Semantic Segmentation (0) | 2021.10.29 |
[주말 실험 일지 - 토] Pstages - Semantic Segmentation (0) | 2021.10.29 |
[Boostcamp 12주차] 피어세션과 학습 회고 & 실험일지 (0) | 2021.10.22 |