Introduction 최근 Visually-rich Document Understanding (VrDU) task은 두 가지 방향으로 진행되고 있다. 1. textual과 visual/layout/style 정보들의 shallow fusion pre-trained NLP와 CV 모델을 사용하여 좋은 성능을 달성하였지만 하나의 document type knowledge가 다른 type에서 쉽게 전달되기 어렵다. 그래서 보통 이러한 경우 document type에 따라 re-train을 해서 모델을 변경한다. 이에 따라 일반적인 document layout에서 변하지않는 것들(local invariance) (key-value 쌍으로 되어있는 left-right layout, grid layout에서의 t..