
OCR-free Document Understanding Transformer


OCR의 많은 연산량과 inflexibilty 등 아래 3가지 한계를 극복하기 위해 OCR를 배제하고 transformer 구조만을 사용한 Visual Document Understanding.

  1. high computational costs for using OCR (→& large-scale datasets)
  2. inflexibility of OCR models on languages or types of documents
  3. OCR error propagation to the subsequent process.

사전학습은 Cross-entropy Loss 함수 사용

특히, invoice 대상 모델 (아마가 아니라 거의 확실히 네이버 영수증 리뷰,,,)


(b) 문자 영역 검출 Text detection

(c)~(d) 검출 영역의 문자 인식 Text Recognition


당연히 제안된 방식이 훨씬 좋다는 이야기


사전학습에서: Donut learns how to read the texts

파인튜닝에서: Donut learns how to understand the whole document