전통문화대전망 - 전통 미덕 - 검색 엔진 개발에 필요한 지식 _ 검색 엔진 관련 지식
검색 엔진 개발에 필요한 지식 _ 검색 엔진 관련 지식
다음은 인터넷 검색 로봇을 예로 들어 검색 엔진 기술을 설명합니다. < P > 1. 사이버 로봇 기술 < P > 사이버 로봇 (Robot) 은 Spider, Worm 또는 Random 이라고도 하며, 핵심 목적은 인터넷에서 정보를 얻기 위한 것입니다. 일반적으로 "네트워크에서 파일을 검색하고 해당 파일의 하이퍼텍스트 구조를 자동으로 추적하고 참조된 모든 파일을 반복적으로 검색하는 소프트웨어" 로 정의됩니다. 로봇은 홈페이지의 하이퍼텍스트 링크를 이용하여 WWW 를 순회하며 U 발가락 참조를 통해 한 HT2LIL 문서에서 다른 HTML 문서로 기어간다. 온라인 로봇이 수집하는 정보는 색인 작성, HIML 파일 합법성 검증, uRL 링크 포인트 검증 및 확인, 업데이트 정보 모니터링 및 수집, 사이트 미러링 등 다양한 용도로 사용할 수 있습니다. < P > 로봇이 인터넷을 기어다니기 때문에 방문한 트랙을 기록하기 위해 URL 목록을 만들어야 합니다. 하이퍼텍스트를 사용합니다. 다른 문서를 가리키는 URL 은 문서에 숨겨져 있으며 추출 URL 을 분석해야 합니다. 로봇은 일반적으로 인덱스 데이터베이스를 생성하는 데 사용됩니다. 모든 WWW 검색 프로그램에는 다음과 같은 작업 단계가 있습니다.
(1) 로봇이 시작 URL 목록에서 URL 을 꺼내서 인터넷에서 가리키는 내용을 읽습니다.
(2) 각 문서에서 특정 정보 (예: 키워드) 를 추출하여 인덱스 데이터베이스에 배치합니다.
(3) 문서에서 다른 문서에 대한 URL 을 추출하여 URL 목록에 추가합니다.
(4) 새 URL 이 더 이상 나타나지 않거나 특정 제한 (시간 또는 디스크 공간) 을 초과할 때까지 위의 세 단계를 반복합니다.
(5) 인덱스 데이터베이스에 검색 인터페이스를 추가하여 온라인 사용자에게 게시하거나 사용자에게 검색을 제공합니다. < P > 검색 알고리즘에는 일반적으로 깊이 우선 순위와 폭 우선 순위의 두 가지 기본 검색 전략이 있습니다. 로봇은 URL 목록 액세스의 방식으로 검색 전략을 결정합니다. 선입선출, 폭 우선 검색, 시작 목록에 많은 WWW 서버 주소가 포함되어 있을 때 폭 우선 검색은 좋은 초기 결과를 생성하지만 서버로 들어가기는 어렵습니다. 선입 선출 후, 깊이 우선 검색이 형성되어 문서 분포가 향상되고 문서의 구조를 더 쉽게 찾을 수 있습니다. 즉, 최대 수의 상호 참조를 찾을 수 있습니다. 32 비트 IP 주소를 직접 변경하여 인터넷 전체를 하나씩 검색하는 방법으로 검색을 반복할 수도 있습니다. < P > 검색 엔진은 기술 함량이 높은 네트워크 애플리케이션 시스템입니다. 여기에는 네트워크 기술, 데이터베이스 기술 동적 색인 기술, 검색 기술, 자동 분류 기술, 기계 학습 등의 인공 지능 기술이 포함됩니다.
2. 인덱싱 기술
인덱싱 기술은 검색 엔진의 핵심 기술 중 하나입니다. 검색 엔진은 수집한 정보를 정리, 분류, 인덱스화하여 색인 라이브러리를 만들고, 중국어 검색 엔진의 핵심은 분사 기술이다. 분사 기술은 일정한 규칙과 어고를 이용하여 한 문장의 단어를 나누어 자동 색인을 준비하는 것이다. 현재 색인은 대부분 Non—clustered 방법을 사용하는데, 이 기술은 언어 문자의 학문과 큰 관계가 있다. 구체적으로
(1) 저장 문법 라이브러리, 어휘 라이브러리와 함께 문장의 어휘를 구분한다.
(2) 어휘의 사용 빈도와 일반적인 조화를 모두 저장하는 용어 라이브러리를 저장합니다.
(3) 전문 문헌을 쉽게 처리할 수 있도록 다양한 전문 라이브러리로 나눌 수 있는 넓은 어휘가 있어야 합니다.
(4) 분사할 수 없는 문장에 대해 각 글자를 단어로 처리한다.
인덱서는 키워드에서 URL 로 관계형 인덱스 테이블을 생성합니다. 인덱스 테이블은 일반적으로 일종의 역행 테이블 () 을 사용합니다. 즉, 인덱스 항목에서 해당 URL 을 찾습니다. 색인 테이블은 또한 색인 항목이 문서에 나타나는 위치를 기록하여 검색자가 색인 항목 간의 인접 또는 근접 관계를 계산하고 특정 데이터 구조로 하드 디스크에 저장할 수 있도록 합니다.
검색 엔진 시스템마다 색인 방법이 다를 수 있습니다. 예를 들어 웹 Crawler 는 전체 텍스트 검색 기술을 사용하여 웹 페이지의 모든 단어를 색인화합니다. Lycos 는 페이지 이름, 제목, 가장 중요한 1 개의 주석어와 같은 선택적 단어만 색인화합니다. Infoseek 는 개념 검색과 구 검색을 제공하며 and, or, near, not 등의 부울 연산을 지원합니다. 검색 엔진의 인덱스 방법은 대략 자동 인덱스, 수동 인덱스 및 사용자 로그인의 세 가지 범주로 나눌 수 있습니다.
3. 검색기와 결과 처리 기술 < P > 검색기의 주요 기능은 사용자가 입력한 키워드를 기준으로 인덱서에 의해 형성된 역행 테이블에서 검색하는 동시에 페이지와 검색 간의 관련성 평가를 완료하고 출력할 결과를 정렬하고 사용자 관련성 피드백 메커니즘을 구현하는 것입니다. < P > 검색 엔진을 통해 얻은 검색 결과는 종종 수백 개에 달합니다. 유용한 정보를 얻기 위해 일반적인 방법은 웹 페이지의 중요성이나 관련성에 따라 웹 페이지의 등급을 매겨 관련성을 정렬하는 것입니다. 여기서 관련성은 검색 키워드가 문서에 나타나는 한도입니다. 한도가 높을수록 해당 문서의 관련성이 높은 것으로 간주됩니다. 가시성은 또한 일반적으로 사용되는 측정 기준 중 하나입니다. 웹 페이지의 표시 여부는 해당 웹 페이지의 포털 하이퍼링크 수를 나타냅니다. 가시성 방법은 한 웹 페이지가 다른 웹 페이지에서 더 많이 참조될수록 해당 웹 페이지가 더 가치가 있다는 관점을 바탕으로 합니다. 특히 한 페이지가 더 중요한 페이지에 의해 참조될수록 그 페이지의 중요도도 높아진다. 결과 처리 기술은 다음과 같이 요약할 수 있습니다.
(1) 일정 순서에 따라 한 페이지에 키워드가 많을수록 검색 대상의 관련성이 좋아야 합니다. 이는 매우 합리적인 솔루션입니다.
(2) 페이지 액세스도별로 정렬하면 검색 엔진에서 검색한 페이지가 액세스되는 빈도를 기록합니다. 사람들이 많이 방문하는 페이지에는 대개 더 많은 정보가 포함되거나 다른 매력적인 장점이 있어야 한다. 이 솔루션은 일반 검색 사용자에게 적합하며, 대부분의 검색 엔진은 전문 사용자가 아니기 때문에 일반 검색 엔진에도 적합합니다.
(3) 2 차 검색 추가 정화 (flne) 결과, 특정 기준에 따라 검색 결과 최적화, 범주, 관련 단어 2 차 검색 등을 선택할 수 있습니다.
현재 검색 엔진이 아직 지능이 없기 때문에 찾으려는 문서의 제목을 알지 않는 한 1 위 결과를 정렬하는 것이 반드시' 최고' 의 결과가 아닐 수도 있습니다. 따라서 일부 문서는 관련성이 높지만 사용자가 가장 필요로 하는 문서는 아닙니다.