JaidedAI/EasyOCR

Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. - JaidedAI/EasyOCR

github.com

 

OCR (Optical Character Reader/Recognition)

광학식 문자 판독기의 줄임말로 필기체 혹은 인쇄된 글자를 인식하여 텍스트 데이터로 치환하는 기술을 말한다. 필기체보다는 주로 활자로 된 문서를 인식하고 사용자가 지정한 영역의 텍스트와 데이터를 추출하는데 많이 사용한다. 삼성페이, 카카오페이 등에 카드를 등록할 때 일일이 손으로 입력할 필요 없이 카메라에 카드를 등록하기만 하면 자동으로 개인 정보가 추출 되는 것도 OCR 기술을 응용한 것이다. 이 외에도 신분증 및 자격증 인식 기술이나 명함 및 문서 인식 기술에도 많이 사용된다. 

대표적으로 네이버 클라우드 플랫폼에서 제공하는 CLOVA OCR 기술이 점점 뜨고 있다. OCR 분야에서 가장 권위있는 글로벌 챌린지 ICDAR2019에서 4개 분야 1위를 석권했으며 CVPR 및 ICCV 국제 학회 논문에 선정되기도 했다. 또한 스마티소프트 주식회사의 INTSIG OCR 모델을 사용하기도 한다. 주요 기업 고객으로는 삼성, LG, 카카오, 신세계 등 우리나라 주요 기업들이 대부분 사용하고 있으며 일반 고객들을 대상으로 CamCard의 명함 인식기, CamScanner 등의 모바일 어플리케이션으로 기술을 제공해 전 세계 약 2억명의 고객들을 모았다.

 

Easy OCR

Easy OCR 라이브러리는 라틴어, 중국어, 아랍어, 일본어, 한국어 등을 포함해 80개 이상의 언어를 사용해서 이미지 속 문자를 판독하고 텍스트로 출력하는 기능을 제공한다.

모든 딥러닝 부분은 PyTorch를 기반으로 만들어졌다. 문자를 감지하는 부분은 Clova AI의 논문에서 사용된 CRAFT 알고리즘을 사용했다. (github.com/clovaai/CRAFT-pytorch) 인식모델은 CRNN 논문을 참고하였으며, 특징 추출을 위해 ResNet 모델을, 시퀀스 레이블링을 위해 LSTM 모델을, 그리고 decoder로 CTC 모델을 참고했다. 인식 부분의 훈련 파이프라인 부분은 deep-text-recognition-benchmark의 수정된 부분을 참고했다.

 

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기