Termux로 이미지에서 텍스트 추출하기(tesseract)

Termux

Termux로 이미지에서 텍스트 추출하기(tesseract)

모과나무99 2022. 9. 3. 23:04

위키백과에서의 설명.

테서랙트(Tesseract)는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다. 이 소프트웨어는 Apache License, 버전 2.0,에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했다.

2006년 테서랙트는 당시 가장 정확한 오픈 소스 OCR 엔진 중 하나로 간주되었다.

pkg upgrade

pkg install tesseract

이렇게 적으면 tesseract가 설치가 된다.

기본적으로 eng.traineddata(영어인식)만 설치가 되어있다.

tesseract --list-langs

위에 코드 적어주면 설치위치와 설치된 언어를 표시해준다.

https://tesseract-ocr.github.io/tessdoc/Data-Files.html

Traineddata Files for Version 4.00 +

Tesseract documentation

tesseract-ocr.github.io

위사이트 들어가면 언어 데이타 파일을 다운받아서

/data/data/com.termux/files/usr/share/tessdata/ 로 복사해주면 된다.

쉬운방법은 터미널에서 wget으로 파일을 다운받으면 된다.

예를들어서 위 사이트에 들어가서 kor.traineddata를 찾아서 길게 눌러서 링크주소복사한다.

터미널에서 wget 한칸띄우고 붙여넣기 한다.

그리고 파일 다운받으면 /data/data/com.termux/files/usr/share/tessdata/ 여기로 복사 해주면 된다.

pkg install wget

wget https://github.com/tesseract-ocr/tessdata/raw/4.00/kor.traineddata

cp kor.traineddata /data/data/com.termux/files/usr/share/tessdata/

tesseract 사용법

tesseract a.jpeg text -l kor 이렇게 하면 a.jpeg에서 한국어로 텍스트 추출해서 text.txt로 저장해준다.

결과를 터미널 화면에 출력해줄려면 stdout 적어주면 된다.

tesseract a.jpeg stdout -l kor

이미지에 영어,한국어가 있으면 두언어를 kor+eng 이런식으로 적어주면 된다.

tesseract a.jpeg stdout -l kor+eng

tesseract 파일이름 텍스트저장할파일이름 -l eng+kor
tesseract a.jpeg text -l eng+kor
tesseract a.jpeg stdout -l eng+kor

ex)

'Termux' 카테고리의 다른 글

손안의 리눅스 터미널과 자동화 마스터! Termux & Tasker 조합으로 만드는 스마트 라이프 (2)	2025.05.23
Termux에서 Youtube 다운로드 간단하게 만들기 (0)	2022.11.04
Termux에서 LunarVim 설치하기 (0)	2022.10.12
Termux에서 npm으로 sqlite3모듈설치시 오류해결 (0)	2022.07.03
Termux에서 code-server 설치하기 (0)	2022.07.03

현재글Termux로 이미지에서 텍스트 추출하기(tesseract)

webstory

stockfish, 명령줄 인터페이스, AI 개발, 불공정 경쟁, 모바일 개발, 리눅스 터미널, 원격 접속, termux, 안드로이드 ai, fairy-stockfish, Python, 인성데이터, 퀵서비스, 안드로이드 서버, 장기 ai, 스마트폰 개발 환경, gemini cli, ai 대결, Fen, 퀵서비스 기사,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

webstory