Boostcamp AI Tech

[Boostcamp Day-55] HRNet (High Resolution Network)

ju_young 2021. 10. 29. 13:05
728x90

HRNet (High Resolution Network)

위치 정보가 중요한 Visual Recognition 문제 (segmentation, object detection, pose estimation 등)에 사용

1. 문제점

  • 기존 Classification Network 사용에 필요했던 높은 time complexity
  • Upsampling을 이용해 저해상도로부터 고해상도로 복원하며 생성되는 특징은 공간 상에서 위치 정보의 민감도가 낮음
  • High Resolution의 위치 정보를 갖는 Visual Recognition 문제에 적합한 구조 HRNet이 제시됨

2. 구조


  • 전체 과정에서 고해상도 특징을 계속 유지
    • 입력 이미지에 Strided Convolution을 이용해 해상도를 1/4로 줄임 (전체 구조에서 1/4 해상도를 유지)
    • U-Net과 DeepLab v3+의 경우 해상도가 각각 1/20, 1/16으로 감소
  • 고해상도부터 저해상도까지 다양한 해상도를 갖는 특징을 병렬적으로 연산 (Parallel Multi-Resolution Convolution Stream)
    • 고해상도 Convolution Stream을 시작으로 점차 해상도를 줄여 저해상도 Stream을 새롭게 생성
    • 새로운 Stream이 생성될 때 해상도는 이전 단계 해상도의 1/2로 감소
    • 해상도를 줄여 넓은 Receptive Field를 갖는 특징을 고해상도 특징과 함께 학습
  • 다중 해상도 정보를 반복적으로 융합 (Repeated Multi-Resolution Fusions)
    • 각각의 해상도가 갖는 정보를 다른 해상도 Stream에 전달하여 정보를 융합
    • 고해상도 특징 : 공간 상의 높은 위치 정보 민감도를 가짐
    • 저해상도 특징 : 넓은 Receptive Field로 인해 상대적으로 풍부한 의미 정보를 가짐
    • 고해상도 정보를 저해상도에 전달 : Strided Convolution 연산 (정보 손실을 최소화)
    • 저해상도 정보를 고해상도에 전달 : Bilinear Upsampling 및 1x1 Convolution 연산

  • HRNetV1
    • 저해상도를 제외한 고해상도 특징만을 최종 출력으로 사용
    • Pose Estimation 문제에 활용
  • HRNetV2
    • 저해상도 특징들을 bilinear upsampling을 통해 고해상도 크기로 변환 후 모든 특징들을 합하여 출력
    • Semantic Segmentation 문제에 활용
  • HRNetV2p
    • HRNetV2의 결과에서 추가로 Down Sampling한 결과를 출력
    • HRNetV2p는 Faster-RCNN 등의 backbone으로 사용되어 Object Detection 문제에 활용
728x90