Programming/파이썬(python) - 라이브러리

파이썬(python)/ 테서랙트(tesseract) 사용

esoog Polaris 2023. 10. 10. 23:11
반응형

# 테서랙트(Tesseract)

 광학 문자 인식(OCR, Optical Character Recognition) 엔진으로, 이미지나 스캔된 문서에서 텍스트를 추출하는 데 사용됩니다. 테서랙트는 무료 오픈 소스 소프트웨어로, Google이 개발하고 관리하고 있습니다. 이 OCR 엔진은 여러 언어를 지원하며, 높은 정확도로 텍스트를 추출할 수 있습니다.


1. **다양한 언어 지원**: 테서랙트는 다양한 언어에 대한 문자 인식을 지원합니다. 이를 통해 다국어 문서나 다국어 텍스트를 처리할 수 있습니다.

2. **높은 정확도**: 테서랙트는 많은 양의 훈련 데이터와 머신 러닝 알고리즘을 사용하여 높은 정확도로 텍스트를 추출합니다.

3. **텍스트 형식 지원**: 이미지, PDF, 스캔된 문서 등 다양한 형식의 텍스트를 추출할 수 있습니다.

4. **커스터마이징 가능**: 필요한 경우 테서랙트를 커스터마이징하여 특정 폰트, 스타일 또는 문자셋에 대한 인식을 향상시킬 수 있습니다.

5. **다양한 플랫폼 지원**: 테서랙트는 Windows, macOS, Linux 등 다양한 운영 체제에서 사용할 수 있습니다.

파이썬에서 테서랙트를 사용하려면 `pytesseract` 라이브러리를 설치해야 합니다. 이 라이브러리를 사용하면 파이썬 코드에서 테서랙트 엔진을 호출하고 이미지나 문서에서 텍스트를 추출할 수 있습니다.

다음은 간단한 예제 코드입니다. 이 코드는 이미지 파일에서 텍스트를 추출하는 방법을 보여줍니다:

import pytesseract
from PIL import Image

# 이미지 열기
image = Image.open('example.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image)

# 추출된 텍스트 출력
print(text)


테서랙트와 `pytesseract` 라이브러리를 설치하고 사용하면 다양한 OCR 작업을 수행할 수 있습니다. OCR은 문서 디지털화, 자동 데이터 입력, 텍스트 검색 및 추출, 번역 등 다양한 응용 프로그램에서 사용됩니다.

 

 

 

 

https://playground.naragara.com/954/

 

[Python]파이썬 테서랙트(Tesseract OCR) 설치 및 사용방법 총정리 : 이미지에서 문자 텍스트 추출하는

지난 6월 8일 애플 WWDC 2021 전세계 개발자 회의에서 애플은 OCR 기능을 선보였습니다. 강의 영상을 사진으로 찍은 후 바로 문서화 하거나 또는 길거리 간판에서 사진을 찍은 후 사진속의 전화번호

playground.naragara.com

 

 

728x90