전통문화대전망 - 전통 공예 - 거미와 파충류의 원리와 기능

거미와 파충류의 원리와 기능

검색 엔진에 대한 거창한 이야기는 짧게 정리해 보겠습니다. 텍스트 검색 엔진에서 스파이더 크롤링의 원리부터 시작하겠습니다.

1 크롤러의 작동 방식과 주요 기술에 대한 집중적인 개요?

웹 크롤러는 웹 페이지를 자동으로 추출하는 프로그램입니다. 검색 엔진을 위해 인터넷에서 웹 페이지를 다운로드하며 검색 엔진의 중요한 부분입니다. 기존 크롤러는 하나 또는 몇 개의 초기 웹 페이지의 URL로 시작하여 초기 웹 페이지의 URL을 가져오고, 웹 페이지를 크롤링하는 과정에서 시스템의 특정 중지 조건이 충족될 때까지 현재 페이지에서 새 URL을 지속적으로 추출하여 대기열에 넣습니다. 집중 크롤러의 워크플로는 더 복잡하며 특정 웹 분석 알고리즘에 따라 주제와 관련이 없는 링크를 걸러내고 유용한 링크는 유지하며 크롤링을 기다리기 위해 URL 대기열에 넣어야 합니다. 그런 다음 특정 검색 전략에 따라 대기열에서 크롤링할 다음 웹 페이지의 URL을 선택하고 시스템의 특정 조건에 도달할 때까지 위의 과정을 반복합니다. 또한 크롤러가 크롤링한 모든 웹 페이지는 일정 수준의 분석 및 필터링을 위해 시스템에 저장되고 나중에 쿼리 및 검색을 위해 색인화됩니다. 집중 크롤러의 경우, 이 과정에서 얻은 분석 결과는 후속 크롤링 프로세스에 대한 피드백 및 지침을 제공할 수도 있습니다.

일반 웹 크롤러와 비교하여 집중 크롤러에서 해결해야 할 세 가지 주요 문제도 있습니다.

(1) 크롤링 대상에 대한 설명 또는 정의,?

(2) 웹 페이지 또는 데이터의 분석 및 필터링;?

(URL에 대한 검색 전략.?).

크롤링 대상에 대한 설명과 정의는 웹 페이지 분석 알고리즘과 URL 검색 전략을 개발하는 방법을 결정하기 위한 기초가 됩니다. 웹 페이지 분석 알고리즘과 후보 URL 정렬 알고리즘은 검색 엔진이 제공하는 서비스 형태와 크롤러의 크롤링 동작을 결정하는 데 핵심적인 역할을 합니다. 알고리즘의 이 두 부분은 밀접한 관련이 있습니다.

2 크롤링 대상 설명?

기존의 집중 크롤러가 캡처한 타겟에 대한 설명은 타겟 웹 페이지 기능에 기반한 설명, 타겟 데이터 패턴에 기반한 설명, 도메인 개념에 기반한 설명의 세 가지 유형으로 분류할 수 있습니다.

타겟 웹 페이지 기능을 기반으로 크롤러가 크롤링, 저장, 색인하는 대상은 일반적으로 웹사이트 또는 웹 페이지입니다. 시드 샘플을 획득하는 방법에 따라 다음과 같이 분류할 수 있습니다.

(1) 미리 주어진 초기 크롤링 시드 샘플;?

(2) 미리 주어진 웹 페이지 분류 체계와 분류 체계에 해당하는 시드 샘플(예: Yahoo! 분류 체계 등)?

(3) 사용자 행동에 따라 결정된 크롤링 타겟 샘플은 다음과 같이 분류됩니다.

a) 사용자 브라우징 중에 마크업을 표시하는 크롤링 샘플; ?

b) 접속 패턴 및 관련 샘플에 대한 사용자 로그 마이닝.

이 경우, 웹 페이지의 특징은 웹 페이지의 콘텐츠 특징, 웹 페이지의 링크 구조 특징 등이 될 수 있습니다.

집중 크롤러에 대한 기존의 설명이나 정의는 대상 웹 페이지의 특징 기반, 대상 데이터 패턴 기반, 도메인 개념 기반 등 세 가지 유형으로 분류할 수 있습니다.

대상 웹페이지의 특성에 기반한 크롤러는 일반적으로 웹사이트 또는 웹페이지를 크롤링, 저장, 색인하는 대상입니다. 구체적인 방법은 (1) 미리 주어진 시드 샘플을 사용한 초기 크롤링, (2) 미리 주어진 웹 페이지 분류 체계와 해당 분류 체계에 해당하는 시드 샘플(예: Yahoo! 분류 구조), (3) 미리 주어진 웹 페이지 분류 체계와 해당 분류 체계에 해당하는 시드 샘플로 나눌 수 있습니다. (3) 사용자 행동에 따라 결정된 타겟 샘플의 크롤링. 그 중 웹 페이지의 특징은 웹 페이지의 콘텐츠 특징, 웹 페이지의 링크 구조 특징 등이 될 수 있습니까?

타겟 데이터 패턴 기반 크롤러는 웹 페이지의 데이터를 대상으로 하며, 크롤링된 데이터는 일반적으로 특정 패턴을 따르거나 타겟 데이터 패턴으로 변환 또는 매핑될 수 있나요?

또 다른 설명 방법은 의미론적 관점에서 주제에서 다양한 기능의 중요성을 분석하는 데 사용되는 대상 도메인에 대한 온톨로지 또는 어휘집을 구축하는 것입니다.

3가지 웹 검색 전략은?

웹 크롤링 전략은 깊이 우선, 넓이 우선, 최고 우선으로 분류할 수 있습니다. 깊이 우선은 많은 경우 크롤러를 갇히게 할 수 있습니다. 오늘날에는 폭 우선과 최적 우선 방식이 일반적으로 사용됩니다.

3.1 폭 우선 검색 전략이란?

폭 우선 검색 전략은 크롤링 프로세스에서 현재 레벨을 완료한 후 다음 레벨에서 검색하는 것을 말합니다. 이 알고리즘의 설계와 구현은 비교적 간단합니다. 현재 가능한 한 많은 웹 페이지를 커버하기 위해 일반적으로 폭 우선 검색 방식을 사용하고 있습니다. 파충류에 초점을 맞추기 위해 폭 우선 검색 전략을 적용한 연구도 많이 진행되었습니다. 기본 아이디어는 초기 URL에서 특정 링크 거리 내에 있는 웹 페이지가 주제 관련성이 높을 가능성이 높다는 것입니다. 또 다른 접근 방식은 확장성 우선 검색과 웹 필터링 기술을 결합하여 확장성 우선 전략으로 웹 페이지를 먼저 크롤링한 다음 관련 없는 페이지를 필터링하는 것입니다. 이러한 방법의 단점은 더 많은 웹 페이지를 크롤링할수록 관련성이 없는 웹 페이지가 많이 다운로드되고 필터링되어 알고리즘의 효율성이 떨어진다는 것입니다.

3.2 최적 우선 검색 전략이란 무엇인가요?

최우선 검색 전략은 특정 웹 분석 알고리즘을 기반으로 후보 URL과 대상 웹 페이지의 유사성 또는 주제와의 관련성을 예측하고 최고 등급의 URL을 하나 또는 여러 개 선택하여 크롤링하는 방식입니다. 웹 분석 알고리즘에 의해 "유용할 것"으로 예측된 페이지만 방문합니다. 한 가지 문제는 최고 우선 순위 정책이 로컬 최적 검색 알고리즘이기 때문에 크롤러의 경로에 있는 많은 관련 웹 페이지가 무시될 수 있다는 것입니다. 따라서 로컬 최적을 넘어서려면 특정 애플리케이션의 컨텍스트에서 최상위 우선순위를 높여야 합니다. 섹션 4에서는 웹 분석 알고리즘에 대해 자세히 설명합니다. 연구에 따르면 이러한 폐쇄 루프 튜닝을 통해 관련 없는 웹 페이지의 수를 30%에서 90%까지 줄일 수 있다고 하죠?

4 웹 페이지 분석 알고리즘?

웹 분석 알고리즘은 네트워크 토폴로지 기반, 웹 콘텐츠 기반, 사용자 접속 행동 기반 등 세 가지 유형으로 분류할 수 있습니다.

4.1 웹 토폴로지 기반 분석 알고리즘이란?

알려진 웹 페이지 또는 웹 페이지 간의 링크를 기반으로 직간접적으로 연결된 개체(예: 웹 페이지 또는 웹사이트)를 평가하는 알고리즘입니다. 웹 세분성, 웹 세분성, 웹 블록 세분성의 세 가지 유형이 있습니다.

4.1.1 웹 세분성 분석 알고리즘은?

페이지랭크와 히트 알고리즘은 가장 일반적인 링크 분석 알고리즘으로, 웹 페이지 간의 연결 정도를 재귀적으로 정규화하여 각 웹 페이지의 중요도 등급을 계산하며, 페이지랭크 알고리즘은 사용자 방문 행동의 무작위성과 싱크 페이지의 존재를 고려하지만 대부분의 사용자 방문은 목적이 있다는 사실, 즉 웹 페이지가 관련성이 있다는 사실을 무시합니다. 링크 및 쿼리 주제의 관련성. 이 문제를 해결하기 위해 HITS 알고리즘은 권한과 허브라는 두 가지 핵심 개념을 제안합니다.

링크 기반 크롤링 문제는 관련 페이지의 주제 간 터널링 현상, 즉 크롤링 경로에 있는 많은 주제 외 페이지가 대상 페이지를 가리키고 로컬 평가 전략이 현재 경로에서 크롤링 동작을 중단하는 현상입니다. 문헌[21]에서는 백링크 기반의 계층적 컨텍스트 모델을 제안하여 타겟 웹페이지의 특정 물리적 홉 반경 내의 웹페이지 토폴로지의 중심 레이어 0을 타겟 페이지로 정의하고, 타겟 페이지의 물리적 홉 수를 기준으로 웹페이지를 계층적으로 나누고, 외부 웹페이지에서 내부 웹페이지로의 링크를 백링크라고 정의하고 있습니다.

4.1.2 웹사이트 세분성 분석 알고리즘은?

사이트 단위의 리소스 검색 및 관리 전략은 웹 페이지 단위보다 더 간단하고 효과적입니다. 사이트 세분성 크롤러 크롤링의 핵심은 사이트 세분화와 사이트 순위 계산입니다. 사이트 순위는 PageRank와 유사하게 계산되지만 사이트 간 링크를 어느 정도 추상화해야 하고 링크 가중치를 특정 모델에 따라 계산해야 하나요?

웹사이트는 도메인 이름과 IP 주소의 두 가지 유형으로 나눌 수 있습니다. 문헌 [18]에서는 동일한 도메인 이름 아래 서로 다른 호스트와 서버의 IP 주소를 나누고 사이트 맵을 구성한 후 PageRank와 유사한 방법으로 SiteRank를 평가하는 방법을 논의하고 있으며, 동시에 각 사이트의 다양한 문서 분포에 따라 문서 맵을 구성하고 SiteRank의 분산 계산을 결합하여 DocRank를 얻습니다. SiteRank 계산은 단일 사이트의 알고리즘 오버헤드를 크게 줄일 뿐만 아니라 단일 사이트가 전체 네트워크를 커버하는 데 한계가 있다는 단점도 극복할 수 있습니다. 또 다른 장점은 일반적인 페이지랭크 사기로는 사이트랭크를 스푸핑하기 어렵다는 점입니다.

4.1.3 웹 블록 세분성 분석 알고리즘은?

한 페이지에 다른 페이지로 연결되는 링크가 여러 개 있는 경우가 많으며, 이러한 링크 중 일부만이 페이지의 링크 앵커 텍스트를 기준으로 주제와 관련이 있거나 중요도가 높은 페이지로 연결됩니다. 이러한 링크는 PageRank 및 HITS 알고리즘에서 구분되지 않으므로 웹 분석에 광고와 같은 노이즈 링크가 유입되는 경향이 있습니다. 웹 블록 수준(블록?)에서는 링크 분석 알고리즘이 차별화되어 있지 않습니다. 링크 분석 알고리즘의 기본 개념은 VIPS 페이지 세분화 알고리즘을 사용하여 웹 페이지를 여러 페이지 블록으로 나눈 다음 이러한 블록에 대한 페이지를 만드는 것입니다. 어디로 갈까요? 블록에서 블록으로? 어디로 갈까요? 페이지의 링크 매트릭스를 각각 Z와 X로 표시한 다음, 페이지 ? 어디로 갈까요? 페이지 블록 수준에서 페이지맵의 페이지 순위는 w? p = x × Z;? 블록에서 ? 어디로 갈까요? 페이지맵의 블록 수준에서 블록랭크는 무엇인가요? w? b = Z × X ...? 일부 사람들은 블록 수준에서 PageRank 및 HITS 알고리즘을 구현했으며 실험 결과 효율성과 정확성이 기존 알고리즘보다 더 나은 것으로 나타났습니다.

4.2 웹 콘텐츠 기반 웹 분석 알고리즘?

웹 콘텐츠 기반 분석 알고리즘은 웹 콘텐츠의 특징(텍스트, 데이터 및 기타 리소스)을 사용하여 웹 페이지를 평가하는 것을 말합니다. 웹 콘텐츠는 하이퍼텍스트에서 직접 보이는 페이지 데이터(PIW)보다 약 400~500배 더 큰 동적 페이지(또는 숨겨진 웹) 데이터로 진화했습니다. 반면에 멀티미디어 데이터, 웹 서비스 등 다양한 형태의 웹 리소스는 점점 더 풍부해지고 있습니다. 그 결과, 웹 콘텐츠 기반 분석 알고리즘은 단순한 텍스트 검색 방법에서 웹 데이터 추출, 머신 러닝, 데이터 마이닝, 의미 이해 및 기타 방법을 포함하는 포괄적인 애플리케이션으로 발전해 왔습니다. 이 섹션에서는 웹 데이터의 다양한 형태에 따라 웹 콘텐츠 기반 분석 알고리즘을 다음 세 가지 범주로 요약합니다. 첫 번째 범주는 텍스트와 하이퍼링크가 포함된 비정형 또는 단순한 웹 페이지, 두 번째 범주는 정형 데이터 소스(예: RDBMS)에서 동적으로 생성된 페이지로 대량으로 직접 액세스할 수 없는 데이터, 세 번째 범주는 첫 번째와 두 번째 범주 사이에 있으며 잘 구조화되어 있고 특정 모드와 스타일로 특정 모드 또는 스타일로 표시되며 직접 액세스할 수 있습니다.