위키백과에서의 설명.
테서랙트(Tesseract)는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다. 이 소프트웨어는 Apache License, 버전 2.0,에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했다.
2006년 테서랙트는 당시 가장 정확한 오픈 소스 OCR 엔진 중 하나로 간주되었다.
pkg upgrade
pkg install tesseract
이렇게 적으면 tesseract가 설치가 된다.
기본적으로 eng.traineddata(영어인식)만 설치가 되어있다.
tesseract --list-langs
위에 코드 적어주면 설치위치와 설치된 언어를 표시해준다.

https://tesseract-ocr.github.io/tessdoc/Data-Files.html
Traineddata Files for Version 4.00 +
Tesseract documentation
tesseract-ocr.github.io
위사이트 들어가면 언어 데이타 파일을 다운받아서
/data/data/com.termux/files/usr/share/tessdata/ 로 복사해주면 된다.
쉬운방법은 터미널에서 wget으로 파일을 다운받으면 된다.
예를들어서 위 사이트에 들어가서 kor.traineddata를 찾아서 길게 눌러서 링크주소복사한다.
터미널에서 wget 한칸띄우고 붙여넣기 한다.
그리고 파일 다운받으면 /data/data/com.termux/files/usr/share/tessdata/ 여기로 복사 해주면 된다.
pkg install wget
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/kor.traineddata
cp kor.traineddata /data/data/com.termux/files/usr/share/tessdata/
tesseract 사용법
tesseract a.jpeg text -l kor 이렇게 하면 a.jpeg에서 한국어로 텍스트 추출해서 text.txt로 저장해준다.
결과를 터미널 화면에 출력해줄려면 stdout 적어주면 된다.
tesseract a.jpeg stdout -l kor
이미지에 영어,한국어가 있으면 두언어를 kor+eng 이런식으로 적어주면 된다.
tesseract a.jpeg stdout -l kor+eng
tesseract 파일이름 텍스트저장할파일이름 -l eng+kor
tesseract a.jpeg text -l eng+kor
tesseract a.jpeg stdout -l eng+kor
ex)



'Termux' 카테고리의 다른 글
손안의 리눅스 터미널과 자동화 마스터! Termux & Tasker 조합으로 만드는 스마트 라이프 (0) | 2025.05.23 |
---|---|
Termux에서 Youtube 다운로드 간단하게 만들기 (0) | 2022.11.04 |
Termux에서 LunarVim 설치하기 (0) | 2022.10.12 |
Termux에서 npm으로 sqlite3모듈설치시 오류해결 (0) | 2022.07.03 |
Termux에서 code-server 설치하기 (0) | 2022.07.03 |