Termux

Termux로 이미지에서 텍스트 추출하기(tesseract)

모과나무99 2022. 9. 3. 23:04

위키백과에서의 설명.

테서랙트(Tesseract)는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다. 이 소프트웨어는 Apache License, 버전 2.0,에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했다.

2006년 테서랙트는 당시 가장 정확한 오픈 소스 OCR 엔진 중 하나로 간주되었다.

 

pkg upgrade
pkg install tesseract

이렇게 적으면 tesseract가 설치가 된다.

기본적으로 eng.traineddata(영어인식)만 설치가 되어있다.

tesseract --list-langs

위에 코드 적어주면 설치위치와 설치된 언어를 표시해준다.

https://tesseract-ocr.github.io/tessdoc/Data-Files.html

 

Traineddata Files for Version 4.00 +

Tesseract documentation

tesseract-ocr.github.io

 

위사이트 들어가면 언어 데이타 파일을 다운받아서 

/data/data/com.termux/files/usr/share/tessdata/ 로 복사해주면 된다.

쉬운방법은 터미널에서 wget으로 파일을 다운받으면 된다.

 

예를들어서 위 사이트에 들어가서 kor.traineddata를 찾아서 길게 눌러서 링크주소복사한다.

터미널에서 wget 한칸띄우고 붙여넣기 한다.

그리고 파일 다운받으면 /data/data/com.termux/files/usr/share/tessdata/ 여기로 복사 해주면 된다.

pkg install wget
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/kor.traineddata
cp kor.traineddata /data/data/com.termux/files/usr/share/tessdata/

 

tesseract 사용법

tesseract a.jpeg text -l kor 이렇게 하면 a.jpeg에서 한국어로 텍스트 추출해서 text.txt로 저장해준다.

결과를 터미널 화면에 출력해줄려면 stdout 적어주면 된다.

tesseract a.jpeg stdout -l kor

이미지에 영어,한국어가 있으면 두언어를 kor+eng 이런식으로 적어주면 된다.

tesseract a.jpeg stdout -l kor+eng

 

tesseract 파일이름 텍스트저장할파일이름 -l eng+kor
tesseract a.jpeg text -l eng+kor
tesseract a.jpeg stdout -l eng+kor

ex)

tesseract 사용법
캪쳐한 이미지
termux에서 텍스트 추츨