728x90
Deep Learning
52

[Paper] Escaping the Big Data Paradigm with Compact Transformers

Introduction Convolution의 중요한 개념으로 다음 세 가지를 말할 수 있다. sparse interaction weight sharing equivariant representations 각각의 개념들에 대해서 리마인드해보자. sparse interaction sparse interaction은 위 그림의 윗부분처럼 이전 layer의 output이 다음 layer의 input이 될 때 fully connected가 아니라 일부만 연결이 되어서 유의미한 feature만 찾을 수 있는 것을 말한다. parameter share sparse interaction에서 그림의 아래부분처럼 파라미터를 공유하지 않을 경우 input의 하나하나 모두 연결되어 전체적으로 데이터를 한 번에 본다. 하지만..

Deep Learning 2022.11.01

[Paper] SepViT: Separable Vision Transformer

Introduction [이전 ViT의 문제] ViT는 다양한 task에서 성공적인 결과를 얻었지만 많은 연산량으로 이러한 성능을 낸다. Swin Transformer의 경우 window-baes self-attention을 제안하는데 이는 complexity를 줄일 수 있도록 도와주지만 shifted operator가 ONNX 또는 TensorRT를 적용하기에 어려움을 준다. Twins SVT의 경우 window-baes self-attention와 spatial reduction attention과 spatially separable self-attention을 제안하고 deployment에 친화적이지만 연산량을 쉽게 줄일 수 있는 방법은 아니었다. CSWin Transformer도 SOTA 성능을 ..

Deep Learning 2022.10.23

[Paper] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

Introduction 위 그림의 (b)처럼 ViT는 columnar 구조를 가져서 coarse한 이미지 패치를 가진다. 그래서 pixel-level dense prediction(object detection, segmentation)에서 다음과 같은 한계를 가진다. output feature map은 single-scale과 low-resolution을 가진다. 연산과 메모리 비용이 비교적 높다. 위 한계를 극복하기위해 본 논문에서는 Pyramid Vision Transformer(PVT)를 제안한다. 위 그림의 (c)가 바로 PVT이고 전통적인 Transformer의 다음과 같은 어려움들을 극복했다. 4x4 pixels per patch와 같이 fine-grained 이미지 패치를 사용하여 high..

Deep Learning 2022.10.03

Generate Text Decoding Methods

Greedy Search Greedy Search는 다음 단어로 올 확률이 높은 단어를 선택하는 간단한 알고리즘이다. 하지만 이 알고리즘은 위 그림처럼 낮은 확률 뒤에 존재하는 높은 확률을 가지는 단어를 놓친다는 것이다. Beam Search Beam Search는 뒷 부분에 높은 확률을 가지는 단어를 놓칠 risk를 줄일 수 있다. 위 처럼 전체를 보았을때 가장 높은 확률을 선택하는 알고리즘으로 다음과 같이 진행된다. time step 1. 가장 가능성이 높은 ("The", "nice")과 두 번째로 가능성이 높은 ("The", "dog")도 선택한다. time step 2. ("The", "dog", "has")가 0.4x0.9=0.36으로 ("The", "nice". "woman") 0.5x0.4=..

Deep Learning 2022.09.21

[Paper] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Introduction NLP에서 Transformer가 성공적인 결과를 얻은 것에 영감을 얻어 본 논문에서는 이미지를 패치로 분할한 후 그 패치들을 linear embedding의 sequence로 사용했다고 한다. 여기서 이미지 패치들은 NLP에서의 토큰들(단어들)과 같이 사용되었다. 하지만 Transformer는 CNN보다 Inductive Bias가 부족하기때문에 불충분한 데이터로 학습하게되면 일반화가 잘 안된다. Vision Transformer (ViT) 보통 Transformer는 1D token embedding의 sequence를 입력한다. 하지만 2D 이미지를 다루기 위해서 ViT는 HxWxC 크기의 이미지를 flatten된 2D 패치의 sequence, Nx($P^2 \cdot C$)..

Deep Learning 2022.09.19

[Paper] LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

Introduction 최근 Visually-rich Document Understanding (VrDU) task은 두 가지 방향으로 진행되고 있다. 1. textual과 visual/layout/style 정보들의 shallow fusion pre-trained NLP와 CV 모델을 사용하여 좋은 성능을 달성하였지만 하나의 document type knowledge가 다른 type에서 쉽게 전달되기 어렵다. 그래서 보통 이러한 경우 document type에 따라 re-train을 해서 모델을 변경한다. 이에 따라 일반적인 document layout에서 변하지않는 것들(local invariance) (key-value 쌍으로 되어있는 left-right layout, grid layout에서의 t..

Deep Learning 2022.09.15

[Paper] LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Introduction 이전에 CNN, Faster R-CNN, Mask R-CNN 모델을 사용하여 detection하고 recognition하는 것과 end-to-end 구조로 CNN은 semantic structure를 추출하고 NLP 모델은 text embedding의 이점을 가져오는 multimodal 모델이 있었다. 또한 비지니스 문서에서 정보를 추출하는 GCN(Graph Convolutional Network)도 알려져있다. 하지만 이러한 network들은 다음과 같은 한계를 가진다. 사람이 labling한 training sample에 의존한다. pre-trained CV model과 NLP model은 보통 좋은 성과를 가져다 주지만 textual, layout 정보를 학습하는 것은 고려되..

Deep Learning 2022.09.13

[ICDAR 2015] Scene Text Detection Metric

ICDAR 2015에서 어떤 metric을 사용했는지 알아보았다. Tightness-Aware Evaluation Protocol for Scene Text Detection 에서는 다음과 같이 ICDAR 2015에서는 Pascal VOC와 같은 metric을 사용하였다고 나온다. Foundational Concepts Pascal VOC metric을 알아보기전에 몇 가지 기본 개념들을 보자. Confidence score: anchor box안에 object가 포함되어있을 확률 Intersection over Union (IoU): intersection / union 으로 계산된다. Confusion Matrix: 다음 표를 확인 Precision Recall Recall과 Precision을 각각..

Deep Learning 2022.08.28

Inductive Bias

Inductive Bias Inductive Bias는 주어지지 않은 입력의 출력을 예측하는 것이다. 즉, 일반화의 성능을 높이기 위해서 만약의 상황에 대한 추가적인 가정(Additional Assumptions)이다. 일반화 성능이 높은 모델은 Inductive Bias를 가지게된다. 다시 말해 보지 못한 데이터에 대해서도 귀납척 추론이 가능하도록하는 알고리즘이 가지고 있는 가정들의 집합을 Inductive Bias라고 한다. Relational Inductive Biases Inductiva Bias는 Relational Inductive Bias와 Non-relational Inductive Bias로 나뉜다. Relational의 의미는 input element와 output element의 관계..

Deep Learning 2022.08.20

[Paper] Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial Scenarios

Instroduction 최근 ViT는 다양한 computer vision 분야에서 주목을 받고 많은 성공을 이루어냈다. 하지만 deployment 관점의 ViT는 CNN보다 훨씬 느리기때문에 여전히 CNN이 압도하고 있다. ViT의 높은 latency를 해결하기위해 많은 연구가 이루어졌다. 예를 들어 Swin Transformer, PVT(Pyramid Vision Transformer)는 MHSA(Multi-Head Self Attention)의 quadratic하게 증가하는 연산량을 개선시켰다. 이외에도 MobileViT, Efficientformer, Coatnet 등은 convolution block들과 Transformer block들을 결합하여 accuracy와 latency의 trade-o..

Deep Learning 2022.08.15
728x90