728x90
Deep Learning
52

[Paper] Automated 3D solid reconstruction from 2D CAD using OpenCV (2)

2. Theoretical formulations 2D drawing 사본 또는 drawing 사진으로 시작한다. (사본, 사진으로 실험을 했다는 내용같음) 가장 중요한 이론의 아이디어는 현재 섹션에서는 생략한다. 전체 flow는 Figure 1을 확인하면 된다. re-construction 프로세스와 관련된 단계는 다음과 같다. outer boundary를 detection하고 bounding box를 development bounding box를 참조하여 point 위치를 결정 모든 points of interest 를 SCAD 포맷의 3D CAD 모델로 최종 변환 2.1. Contour detection 첫 번째 단계는 이미지를 feature가 식별될 수 있는 form으로 변환하는 것과 관련이 있다..

Deep Learning 2023.01.02

[Paper] Automated 3D solid reconstruction from 2D CAD using OpenCV (1)

Abstract 본 논문에서는 2D 엔지니어링 drawing에서 feature extraction을 위한 OpenCV의 적용을 보여준다. 추출된 feature들은 SCAD 포맷의 3D CAD model로 재구성하거나 LIDAR scan data와 같은 3D point cloud data로 generation하는데 사용된다. mechanical, aerospace, civil 등의 engineering 에서는 CAD 모델보다는 drawing을 설계 단계에서 이용한다. 따라서 본 논문에서는 camera capture 또는 스캔한 drawing data를 가지고 3D CAD와 BIM 모델로 쉽게 변환할 수 있는 것을 목적으로한다. 하지만 여기서 설명하는 방법은 간단한 shape에 대한 적용 가능성을 보여주며 ..

Deep Learning 2023.01.02

[Paper] Separable Self-attention for Mobile VisionTransformers

Introduction MobileViT는 CNN과 ViT의 장점을 가지는 light-weight network이다. 본 논문에서는 linear complexity를 가지는 separable self-attention을 소개한다. separaple self-attention은 위와 같이 quadratic MHA를 두 개의 linear computation으로 대체하면서 global information을 encoding 한다. Separable self-attention $c_s$: context score $c_v$: context vector $x_K$: dxd 차원의 weight를 가지는 key를 사용하여 linearly projection contextual information을 가지는 $c_v..

Deep Learning 2022.12.26

[Paper] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Introduction 기존 Transformer계열 모델은 token이 모두 고정된 scale을 가진다. semantic segmentation과 같은 vision task는 pixel level의 dense prediction을 요구하는데 이때 high-resolution image를 가지고 self-attention 연산이 이루어져서 quadratic한 연산 복잡도를 가진다. 이러한 문제를 해결하기위해 Swin Transformer를 제안한다. 이 모델은 계층적인 feature map으로 구성되고 image size에 따른 linear한 연산 복잡도를 가진다. 위 그림의 (a)를 보면, Swin Transformer는 작은 크기의 path로 시작하여 계층적인 representation을 구성하고 인..

Deep Learning 2022.11.16

Panoptic segmentation (UPSNet, VPSNet)와 Landmark Localization

Panoptic segmentation 기존의 instance segmentation은 배경에는 관심이 없었고 그저 움직이는 작은 물체들에 대해서만 관심을 가졌다. 배경 등에 관심이 있을 때는 semantic segmentation이 유리하긴 했지만 객체(instance)를 구별할 수 없다는 한계가 존재하였다. 그래서 이런 두 가지 문제 특성을 합친 새로운 문제로 Panoptic segmentation이 제시되었다. UPSNet Backbone에서는 FPN을 사용하여 고해상도의 feature map을 뽑고 head branch를 여러개로 나눈다. 첫 번째는 Semantic head인데 fc 구조로 되어서 semantic map을 prediction 하게 되고 그 다음 branch로 instance hea..

Deep Learning 2022.11.14

Instance Segmentation (Mask R-CNN, YOLACT, YolactEdge)

Instance segmentation instance segmentation은 위 그림처럼 같은 클래스라도 instance가 다르면 구분을 해준다. Mask R-CNN Fast R-CNN에서는 RPN(region proposal network)에 의해 나온 bounding box에 RoI Pooling을 사용하였다. 그리고 기존 RoI Pooling은 정수 좌표밖에 지원하였다. 하지만 Mask R-CNN에서는 RoIAlign이라는 새로운 Pooling layer를 제안하였고 RoIAlign에서는 interpolation을 통해서 소수점 픽셀 level의 pooling을 지원하게 되었다. 따라서 더욱 정교한 feature를 뽑을 수 있게 되고 그 뒷단의 성능이 향상되는 것으로 이어진다. 그리고 Fast ..

Deep Learning 2022.11.14

Semantic Segmentation (U-Net, DeepLab)

Fully Convolutional Networks(FCN) FCN은 end-to-end의 구조(처음부터 끝까지 미분가능한 neural network)를 가지는 첫 semantic segmentation이다. 임의의 사이즈를 입력으로 넣고 입력값에 해당되는 segmentation map이 출력된다. Fully connected layer : 고정된 vector값이 출력되어 spatial coordinate가 삭제된다. Fully convolutional layer : spatial coordinate가 유지된 classification map이 출력된다. FCN 연산 기존의 FC layer는 다음과 같이 Flattening을 통해 하나의 feature vector를 생성하였다. 하지만 공간에 대한 정보가..

Deep Learning 2022.11.14

LSTM (Long Short Term Memory)과 GRU(Gated Recurrent Unit)

Long Short Term Memory Long Short Term Memory는 위에서 얘기한 문제들을 해결하기위해 고안해낸 구조이다. 간단히 말하면 Long Term Memory와 Short Term Meomory를 같이 고려하여 계산함으로서 극복하겠다는 것이다. 위에있는 A라는 셀의 내부를 자세히 살펴보면 다음과 같은 구조를 가진다. 총 4개의 gate로 이루어져있으며 입력값은 이전 cell state, 이전 hidden state, X_t 3개가 있고 출력은 Next cell state, Next hidden state, h_t 3개가 있지만 실질적은 출력은 h_t가 된다. 여기서 LSTM(Long Short Term Memory)의 핵심은 cell state인데 간단하게 말하면 정보가 변하지않..

Deep Learning 2022.11.14

Object Detection (R-CNN, SPPNet, Fast-RCNN, Faster-RCNN, YOLO)

Detection은 bounding box를 사용하여 특정 물체를 추적하는 방법을 말한다. R-CNN R-CNN은 다음과 같은 순서로 진행된다. Input image bottom-up 방식으로 2000개의 region을 추출한다(Selective search를 사용) -> object가 있을만한 영역을 뽑아낸다고 말하며 RoI(Region of Interest)라고 한다. Selective search 위 그림에서 왼쪽 하단처럼 non-object-based segmentation을 수행하여 조그만 segmented area들을 얻는다. Bottom-up 방식으로 저 조그만 area들을 합쳐서 점점 더 큰 segmented area들을 만든다. 위 작업을 반복하여 최종적으로 2000개의 region pr..

Deep Learning 2022.11.14

[Paper] CvT: Introducing Convolutions to Vision Transformers

Introduction 많은 데이터에서 ViT의 성공에도 불구하고 성능은 여전히 비슷한 양의 데이터, 비슷한 크기의 CNN과 비슷하다. 아마도 그 이유 중 하나로 CNN 구조에서 어떤 특성들이 ViT에 부족한 것이다. 예를 들어 이미지는 인접한 픽셀들끼리 높은 관계를 가지는 것과 같은 2D local structure를 가진다. CNN 구조는 local receptive fields, shared weights, spatial subsampling(max pooling, average pooling 같은 것들을 말함), invariance 등과 같은 것들로 local structure를 잡아낼 수 있다. 또한 convolutional kernel의 계층 구조는 다양한 level의 복잡도에서 local s..

Deep Learning 2022.11.08
728x90