전통문화대전망 - 전통 미덕 - OCR 이란 무엇입니까?
OCR 이란 무엇입니까?
OCR (광학 문자 인식) 은 패턴 인식 (PR) 의 주제입니다. 그것의 목적은 컴퓨터가 무엇을 보았는지, 특히 문자재료를 알게 하는 것이다.
OCR 은 인식률과 줄다리기를 하는 기술이기 때문에, 어떻게 디버그하거나 보조정보를 이용하여 인식률을 높이는 것이 OCR 의 가장 중요한 과제이기 때문에 ICR (Intelligent Character Recognition) 이라는 단어가 생겨났다. 문자 재료의 존재 매체와 이러한 재료를 얻는 방법에 따라 다양한 응용이 도출된다.
다음은 OCR 의 기술 소개 및 응용 프로그램을 포함한 OCR 의 기본 소개입니다.
I. 광학 문자 인식 개발
OCR 의 발전을 말하기 위해, 일찍이 60, 70 년대에 세계 각국은 OCR 을 연구하기 시작했다. 연구 초기에는 대부분 문자 인식 방법에 집중했고, 인식된 문자는 0 부터 9 까지의 숫자였다. 같은 액자가 있는 일본을 예로 들면 OCR 의 기본 인식 이론은 1960 정도에 연구를 시작했다. 처음에는 숫자를 대상으로 1965 부터 1970 까지 인쇄체 문자의 우편 번호 인식 시스템, 우편물의 우편 번호 인식, 우체국이 지역 우편물 배포를 하는 데 도움이 되는 간단한 제품이 등장하기 시작했다. 그래서 우편번호는 각국이 제창한 주소 쓰기 방식이다.
OCR 은 불확실한 기술 연구라고 할 수 있습니다. 정확도는 무한히 접근하는 함수와 같다. 만약 우리가 그것의 근사치를 안다면, 우리는 그것에 접근할 수 있을 뿐, 그것을 도달할 수는 없다. 우리는 항상 100% 가 싸우고 있다. 관련된 요소가 너무 많기 때문에 작성자의 습관이나 문서의 인쇄 품질, 스캐너의 스캔 품질, 인증 방법, 연구 테스트 샘플 등이 있습니다. , 그 정확성에 영향을 줄 것입니다. 따라서 OCR 제품은 강력한 식별 핵심을 필요로 하며, 운영 및 사용의 편리성, 제품이 제공하는 디버깅 기능 및 방법도 제품 품질을 결정하는 중요한 요소입니다.
OCR 인식 시스템의 목적은 이미지를 변환하여 이미지의 그래픽을 계속 유지하는 것입니다. 테이블의 데이터와 이미지의 문자는 모두 컴퓨터 문자가 되어 이미지 데이터의 저장을 줄이고, 인식된 문자를 재사용하고 분석할 수 있으며, 물론 키보드 입력의 인력과 시간을 절약할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마), 컴퓨터명언)
이미지에서 결과 출력까지 이미지 입력, 이미지 사전 처리, 텍스트 피쳐 추출, 비교 인식, 마지막으로 수동 수정을 통해 오타를 수정하고 결과를 출력합니다.
여기 하나하나 소개해 드리겠습니다.
이미지 입력: OCR 처리를 위한 주제는 이미지 스캐너, 팩스 기계 또는 모든 사진 장치와 같은 광학 기기를 통해 컴퓨터로 전송해야 합니다. 과학기술이 발전함에 따라 스캐너 등 입력 장비는 점점 더 정교하고 얇고 가벼우며 품질이 높아져 OCR 에 큰 도움이 된다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 과학명언) 스캐너의 해상도를 통해 이미지가 더 선명해지고, 스캔 속도가 빨라지며, OCR 처리의 효율성이 향상됩니다.
이미지 사전 처리: 이미지 사전 처리는 OCR 시스템에서 가장 많은 문제를 해결해야 하는 모듈입니다. 흑백이 아닌 이진수 이미지나 그레이스케일 컬러 이미지를 얻는 것부터 독립적으로 생성된 텍스트 이미지까지 이미지 전처리에 속한다. 이미지 정규화, 노이즈 제거, 이미지 보정 등의 이미지 처리, 그래픽 분석, 텍스트 행 및 텍스트 분리와 같은 파일 사전 처리가 포함됩니다. 이미지 처리 분야에서는 이론적으로나 기술적으로 성숙한 단계에 이르렀기 때문에 시장이나 웹사이트에 많은 링크 라이브러리를 사용할 수 있습니다. 문서의 전처리에서 각 기술을 보아야 한다. 이미지는 먼저 그림, 표, 텍스트 영역을 분리해야 하며, 문장 조판 방향, 주제, 내용 주제를 구분해야 문자의 크기와 글꼴을 원본 문서로 판단할 수 있다.
문자 피쳐 추출: 인식률만으로는 피쳐 추출이 OCR 의 핵심이라고 할 수 있습니다. 어떤 특성과 피쳐 추출 방법이 인식의 품질에 직접적인 영향을 미치기 때문에 OCR 연구 초기에 피쳐 추출에 대한 많은 연구 보고서가 있었습니다. 특징은 인식된 칩이라고 할 수 있으며, 간단한 구분은 두 가지 범주로 나눌 수 있습니다. 하나는 텍스트 영역의 검정색/흰색 점 비율과 같은 통계적 특성입니다. 텍스트가 여러 영역으로 분할되면 각 영역의 검정색/흰색 점 비율의 조합이 공간의 숫자 벡터가 되며 기본 수학 이론은 충분히 비교할 수 있습니다. 또 다른 특징은 텍스트 이미지를 다듬어 선 끝과 단어가 교차하는 양과 위치를 얻거나 특수한 비교 방법을 사용하여 선 세그먼트와 비교하는 것과 같은 구조적 특징입니다. 시중에 나와 있는 온라인 필기 입력 소프트웨어의 인식 방법은 대부분 이런 구조적 방법에 기반을 두고 있다.
비교 데이터베이스: 입력 문자의 특징을 계산한 후 통계적 또는 구조적 특징을 사용하는지에 관계없이 비교 데이터베이스 또는 피쳐 데이터베이스를 비교해야 합니다. 데이터베이스 내용에는 인식할 모든 문자 세트와 입력 문자와 동일한 피쳐 추출 방법을 통해 얻은 피쳐 그룹이 포함되어야 합니다.
비교 인식: 이것은 수학 연산 이론을 충분히 발휘할 수 있는 모듈이다. 특성에 따라 다른 수학 거리 함수를 선택합니다. 유명한 비교 방법은 유럽 공간 비교법, 이완법, 동적 계획법 (DP), 신경 네트워크 데이터베이스 구축 및 비교, hmm (숨겨진 마르코프 모델) 등 유명한 방법이다. 식별 결과를보다 안정적으로 만들기 위해 일부 사람들은 소위 전문가 시스템을 제안하고 다양한 기능 비교 방법의 차이와 상보성을 사용하여 식별 결과에 특히 높은 신뢰도를 부여합니다.
텍스트 사후 처리: OCR 의 인식률이 100% 에 도달하지 못하거나 일치의 정확성과 신뢰도를 높이기 위해 일부 디버깅 및 오류 수정을 돕는 기능이 OCR 시스템의 필수 모듈이 되었습니다. 단어 후처리는 비교 후 인식된 단어와 비슷할 수 있는 후보 단어를 이용하여 앞뒤로 인식된 단어에 따라 가장 논리적인 단어를 찾아 수정하는 예입니다.
시소러스: 워드 포스트 프로세싱을 위해 설립 된 시소러스.
수동 수정: OCR 의 마지막 관문입니다. 그 전에는 사용자가 마우스를 들고 소프트웨어 디자인의 리듬을 따라가거나 그냥 구경만 할 수도 있었다. (윌리엄 셰익스피어, 스튜어트, 자기관리명언) 여기서는 사용자의 정신과 시간이 필요할 수 있습니다. OCR 이 존재할 수 있는 문제를 바로잡거나 찾아내야 할 수도 있습니다. 좋은 OCR 소프트웨어는 오류 비율을 줄이기 위해 안정적인 이미지 처리 및 인식 코어를 가지고 있을 뿐만 아니라, 수동으로 보정된 작업 흐름과 기능이 OCR 의 처리 효율성에 영향을 미칩니다. 따라서 문자 이미지와 인식자의 비교, 화면 정보의 위치, 각 인식자의 후보 문자 기능, 인식문자 거부 기능, 문제가 될 수 있는 문자는 문자 사후 처리 후 특수 치수화됩니다. 사용자가 가능한 한 키보드를 적게 사용하도록 설계되었습니다. 물론, 시스템이 표시하지 않는 문자가 반드시 정확하다는 것은 아니다. 마치 키보드로 완전히 입력되는 오선 스펙트럼도 잘못될 수 있는 것과 같다. (윌리엄 셰익스피어, 햄릿, 언어명언) 이때 사용자의 요구에 전적으로 달려 있다.
결과 출력: 사실 출력은 간단하지만 사용자가 OCR 로 무엇을 하느냐에 따라 달라진다. 어떤 사람들은 텍스트 파일을 텍스트의 일부로만 재사용하기를 원하기 때문에 일반 텍스트 파일, 어떤 사람들은 입력 파일과 정확히 같기를 바라기 때문에 원문을 재현하는 기능이 있고, 어떤 사람들은 표의 텍스트를 중시하기 때문에 Excel 과 같은 소프트웨어를 결합해야 한다. 어떤 변화든 출력 파일 형식의 변화일 뿐이다.
보충: 물론 삭제할 필요는 없습니다!