전통문화대전망 - 전통 미덕 - 데이터 마이닝 및 데이터웨어 하우스에 대해 이야기하기

데이터 마이닝 및 데이터웨어 하우스에 대해 이야기하기

데이터 마이닝 및 데이터웨어 하우스에 대해 이야기하기

1 데이터 마이닝

1..1데이터 마이닝과 기존 데이터 분석의 차이점

데이터 마이닝과 쿼리, 보고서, 온라인 애플리케이션 분석 등 기존 데이터 분석의 본질적인 차이점은 데이터 마이닝은 명확한 가정 없이 정보를 발굴하고 지식을 발견하는 것입니다. 데이터 마이닝으로 얻은 정보에는 이전에 알려지지 않은, 효과적이고 실용적인 세 가지 특징이 있어야 합니다. 즉, 데이터 마이닝은 직감으로는 찾을 수 없는 정보나 지식, 심지어 직관에 어긋나는 정보나 지식을 찾는 것이다. 발굴된 정보가 의외로 많을수록 더 가치가 있을 수 있다. 그러나 기존의 데이터 분석 추세는 대형 데이터베이스에서 필요한 데이터를 수집하고 전용 컴퓨터 분석 소프트웨어를 사용하는 것입니다. 따라서 데이터 마이닝은 기존의 분석 방법과 매우 다릅니다.

1.2 데이터 마이닝의 어플리케이션 가치

(1) 분류: 먼저 데이터에서 분류된 교육 세트를 선택하고, 이 교육 세트에서 데이터 마이닝 분류 기술을 사용하고, 분류 모델을 설정하고, 분류되지 않은 데이터를 분류합니다. (2) 추정: 분류와 비슷하지만 분류는 이산 변수의 출력을 설명하고 추정은 연속 값의 출력을 처리한다는 점이 다릅니다. 분류는 확실한 숫자이고, 추정은 불확실하다. (3) 클러스터링: 레코드를 그룹화합니다. 클러스터링과 분류의 차이점은 클러스터가 미리 정의된 클래스에 의존하지 않고 교육 세트가 필요하지 않다는 것입니다. 고급 데이터 마이닝 도구인 마크웨이 분석 시스템을 사용하여 사용자의 WAP 인터넷 동작을 클러스터 분석하고 고객 그룹을 통해 정밀 마케팅을 차이나 모바일 진행합니다. (4) 상호 관계 규칙과 시퀀스 패턴의 발견: 연관은 일종의 연결이며, 어떤 일이 발생하면 다른 일도 일어난다. 예를 들어 매일 맥주를 사는 사람도 담배를 살 수 있는데, 비율은 협회의 지지도와 공신력으로 묘사할 수 있다. 연관과 달리 시퀀스는 수직 연관입니다. 예를 들어 오늘 은행이 금리를 조정하면 내일 주식시장이 변한다. (5) 예측: 모델을 분류하거나 추정하여 알 수 없는 변수를 예측하는 데 사용됩니다. (6) 편차 감지: 분석 대상의 극소수의 극단적인 특례에 대한 묘사로 내재적 원인을 밝혀낸다. 또한 고객 분석, 물류 및 엔터프라이즈 자원 최적화, 이상 탐지 및 엔터프라이즈 분석 모델 관리에 널리 사용됩니다.

2 데이터 웨어하우스

2. 1 데이터 웨어하우스의 특징

(1) 테마 지향 데이터 세트. 데이터 웨어하우스는 고객, 공급업체, 제품 및 판매와 같은 주제를 중심으로 구성됩니다. 데이터웨어 하우스는 조직의 일상적인 운영 및 트랜잭션보다는 의사 결정자의 데이터 모델링 및 분석에 중점을 둡니다. (2) 통합 데이터 세트. 데이터 웨어하우스의 데이터는 원래 분산된 데이터베이스 데이터의 추출 및 정리를 기반으로 시스템의 처리, 요약 및 정리를 통해 얻어집니다. 데이터 웨어하우스의 정보가 일관되고 기업 전체에 대한 글로벌 정보가 되도록 소스 데이터의 불일치를 제거해야 합니다. (3) 시변 데이터 세트. 데이터 저장소는 역사적 관점에서 정보를 제공합니다. 데이터 웨어하우스의 데이터에는 일반적으로 기업의 발전 과정과 향후 추세를 정량적으로 분석하고 예측할 수 있는 과거 정보가 포함되어 있습니다. (4) 비휘발성 데이터 세트. 데이터 웨어하우스의 데이터는 주로 엔터프라이즈 의사 결정 분석에 사용되며, 관련된 데이터 작업은 주로 데이터 쿼리이며, 수정 및 삭제 작업은 거의 없으며 일반적으로 정기적으로 로드 및 새로 고침만 하면 됩니다. 데이터 웨어하우스의 데이터는 일반적으로 초기 로드와 데이터 액세스라는 두 가지 작업만 필요합니다. 따라서 해당 데이터는 상대적으로 안정적이며 거의 또는 전혀 업데이트되지 않습니다. 2.2 데이터 웨어하우스 유형

데이터 웨어하우스 유형 데이터 웨어하우스에서 관리하는 데이터 유형과 해결된 엔터프라이즈 문제의 범위에 따라 데이터 웨어하우스는 일반적으로 엔터프라이즈 데이터 웨어하우스 (EDW), 운영 데이터베이스 (ODS) 및 데이터 마트의 세 가지 유형으로 나눌 수 있습니다. ① 엔터프라이즈 데이터 웨어하우스는 대량의 상세 데이터와 번거롭거나 집계된 데이터를 모두 포함하는 범용 데이터 웨어하우스로, 역사를 쉽게 변경하고 대면할 수 없습니다. 이러한 데이터 웨어하우스는 다양한 엔터프라이즈 영역을 포괄하는 전략 또는 전술적 의사 결정을 내리는 데 사용됩니다. (2) 운영 데이터베이스는 작업 데이터에 대한 의사 결정 지원 또는 데이터 웨어하우스에 데이터를 로드할 때의 전환 영역으로 사용될 수 있습니다. EDW 에 비해 ODS 는 현재 및 상세 데이터만 포함하고 누적 및 과거 데이터는 포함하지 않는 포괄적이고 다양한 주제를 대상으로 합니다. ③ 데이터 마트는 데이터 웨어하우스에서 분리된 특정 애플리케이션 목적이나 범위에 사용되는 데이터의 일부이며 부서 데이터 또는 주제 데이터라고도 합니다. 몇 세트의 데이터 마트가 하나의 EDW 를 구성할 수 있다.

2.3 데이터웨어 하우스와 기존 데이터베이스 비교

양자는 연결도 있고 차이도 있다. 데이터 웨어하우스의 출현은 데이터베이스를 대체하는 것이 아닙니다. 현재 대부분의 데이터 웨어하우스는 관계형 데이터베이스 관리 시스템에 의해 관리됩니다. 데이터베이스와 데이터 웨어하우스는 상호 보완적이며 각각 장점이 있다고 할 수 있다. 이 둘의 차이점은 다음과 같은 측면에서 비교할 수 있습니다.

(1) 출발점이 다릅니다. 데이터베이스는 트랜잭션 지향 디자인입니다. 데이터 웨어하우스는 주제 지향적입니다. (2) 저장된 데이터가 다릅니다. 데이터베이스는 일반적으로 온라인 거래 데이터를 저장합니다. 데이터 웨어하우스는 일반적으로 기록 데이터를 저장합니다. (3) 설계 규칙이 다릅니다. 데이터베이스 설계는 가능한 중복을 피하고 일반적으로 패러다임에 맞는 규칙을 사용합니다. 데이터 웨어하우스 설계에서는 중복이 의도적으로 도입되고 비정상적인 방식으로 설계됩니다. (4) 제공된 기능이 다릅니다. 데이터베이스는 데이터 수집을 위해 설계되었으며 데이터 웨어하우스는 데이터 분석을 위해 설계되었습니다. (5) 기본 요소는 다릅니다. 데이터베이스의 기본 요소는 사실 테이블이고 데이터 웨어하우스의 기본 요소는 차원 테이블입니다. (6) 용량이 다릅니다. 데이터베이스의 기본 용량은 데이터 웨어하우스보다 훨씬 작습니다. (7) 서비스 대상이 다릅니다. 데이터베이스는 효율적인 트랜잭션을 위해 설계되었으며, 서비스 대상은 엔터프라이즈 비즈니스 프로세스의 직원입니다. 데이터 웨어하우스는 데이터 분석 및 의사 결정을 위해 설계되었으며, 서비스 대상은 기업의 고위 의사 결정자입니다.

3 데이터웨어 하우스와 데이터 마이닝의 관계

물론 데이터 마이닝은 데이터 웨어하우스를 만들 필요가 없습니다. 데이터 웨어하우스는 필요하지 않습니다. 방대한 데이터 창고를 구축하고, 서로 다른 출처의 데이터를 통일하고, 모든 데이터 충돌을 해결하고, 모든 데이터를 하나의 데이터 웨어하우스로 가져오는 것은 방대한 프로젝트이며, 몇 년, 수백만 달러가 걸릴 수 있습니다. 데이터 마이닝의 경우 하나 이상의 트랜잭션 데이터베이스를 읽기 전용 데이터베이스로 가져와 데이터 마트로 취급하고 그 위에 데이터 마이닝을 수행할 수 있습니다.