전통문화대전망 - 전통 미덕 - 기존 데이터베이스와 데이터 웨어하우스의 차이점

기존 데이터베이스와 데이터 웨어하우스의 차이점

간단히 말해 데이터베이스는 트랜잭션 지향 설계이고 데이터 웨어하우스는 테마 지향 설계입니다.

데이터베이스는 일반적으로 온라인 트랜잭션 데이터를 저장하고, 데이터 웨어하우스는 일반적으로 과거 데이터를 저장합니다. < P > 데이터베이스 설계는 중복성을 최대한 피하고, 일반적으로 패러다임에 맞는 규칙을 사용하여 설계되었으며, 데이터 웨어하우스는 의도적으로 중복성을 도입하고 반패러다임 방식으로 설계됩니다.

데이터베이스는 데이터 캡처를 위해 설계되었으며 데이터 웨어하우스는 데이터 분석을 위해 설계되었으며 두 가지 기본 요소는 차원 테이블과 사실 테이블입니다. 차원은 시간, 부서, 차원 테이블과 같은 문제를 보는 관점입니다. 사실 테이블에는 조회할 데이터와 차원 ID 가 들어 있습니다.

개념적으로만 보면 좀 애매하다. 어떤 기술이든 앱을 위한 것이므로, 응용과 결합하면 쉽게 이해할 수 있다. 은행 업무를 예로 들다. 데이터베이스는 고객이 은행에서 하는 모든 거래가 데이터베이스에 기록되고 기록되는 트랜잭션 시스템의 데이터 플랫폼입니다. 여기서는 단순히 데이터베이스 회계로 이해할 수 있습니다. 데이터 웨어하우스는 트랜잭션 시스템에서 데이터를 가져와 요약 및 처리하여 의사 결정자에게 의사 결정의 근거를 제공하는 분석 시스템의 데이터 플랫폼입니다. 예를 들어, 한 은행의 한 지점에서 한 달에 얼마나 많은 거래가 발생했으며, 그 지점의 현재 예금 잔액은 얼마입니까? 예금이 많고 소비 거래가 많다면 그 지역에 ATM 을 설립할 필요가 있다. < P > 분명히 은행의 거래량은 어마하다. 보통 백만 ~ 천만 번으로 계산된다. 트랜잭션 시스템은 실시간입니다. 이를 위해서는 적시성이 필요합니다. 고객이 돈을 저축하는 데 수십 초가 걸리는 것은 참을 수 없습니다. 이를 위해서는 데이터베이스에 짧은 기간 동안의 데이터만 저장해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 트랜잭션명언) 분석 시스템은 사후이며, 관심 기간 동안의 모든 유효 데이터를 제공해야 한다. 이 데이터는 거대하며 요약 계산도 좀 느리지만, 효과적인 분석 데이터를 제공할 수 있는 한 목적을 달성할 수 있다. < P > 데이터 웨어하우스는 데이터베이스가 이미 대량으로 존재하는 상황에서 데이터 자원을 더 발굴하고 의사 결정 요구를 위해 생성된 것으로, 결코' 대형 데이터베이스' 가 아니다. 그렇다면 데이터 웨어하우스와 기존 데이터베이스의 차이점은 무엇입니까? 먼저 W.H.Inmon 의 데이터 웨어하우스 정의 (주제 지향, 통합, 시간 관련, 수정할 수 없는 데이터 집합) 를 살펴보겠습니다.

"주제 지향": 기존 데이터베이스는 주로 어플리케이션을 위한 데이터 처리이며 동일한 주제에 따라 데이터를 저장할 필요가 없습니다. 데이터 웨어하우스는 데이터 분석 작업에 중점을 두고 주제별로 저장됩니다. 이 점은 전통적인 농산물 시장과 슈퍼마켓의 차이와 비슷하다. 시장에서 배추, 무, 고수는 작은 판매인 경우 노점에 있을 것이다. 슈퍼마켓에서는 배추, 무, 고수가 각각 한 개씩 있다. 즉, 시장의 요리 (데이터) 는 노점상 (앱) 에 따라 쌓여 있고, 슈퍼마켓 안에는 음식의 유형 (같은 주제) 에 따라 쌓여 있다.

시간 관련: 데이터베이스가 정보를 저장할 때 시간 정보가 있어야 한다는 점을 강조하지 않습니다. 데이터 웨어하우스는 의사 결정의 필요에 따라 데이터 웨어하우스의 데이터에 시간 속성을 표시해야 합니다. 의사 결정에서 시간 속성은 매우 중요합니다. 마찬가지로 모두 9 차 제품을 누적 구매한 고객입니다. 한 명은 최근 3 개월 동안 9 차를 구매하고, 한 명은 최근 1 년 동안 한 번도 사지 않은 고객입니다. 이는 의사결정권자에게는 의미가 다릅니다.

수정할 수 없음: 데이터 웨어하우스의 데이터는 최신 상태가 아니라 다른 데이터 소스에서 가져온 것입니다. 데이터 웨어하우스는 과거 정보를 반영하고 있으며, 많은 데이터베이스에서 처리하는 일상적인 트랜잭션 데이터 (통신 청구 데이터베이스, 실시간 정보 처리 등 일부 데이터베이스) 는 아닙니다. 따라서 데이터 웨어하우스의 데이터는 거의 또는 전혀 수정되지 않습니다. 물론 데이터 웨어하우스에 데이터를 추가할 수 있습니다.

데이터 웨어하우스의 출현은 데이터베이스를 대체하는 것이 아닙니다. 현재 대부분의 데이터 웨어하우스는 관계형 데이터베이스 관리 시스템으로 관리됩니다. 데이터베이스, 데이터 웨어하우스가 서로 보완되고 각각 천추라고 할 수 있다. < P > 데이터 웨어하우스의 시나리오 구축의 목적은 프런트 엔드 쿼리 및 분석을 기반으로 하는 것으로, 중복이 크기 때문에 필요한 스토리지도 크다. 프런트 엔드 애플리케이션을 더 잘 서비스하기 위해서는 데이터 웨어하우스에 다음과 같은 이점이 있어야 합니다. 그렇지 않으면 실패한 데이터 웨어하우스 스키마입니다.

1. 효율성이 충분히 높다. 고객이 요구하는 분석 데이터는 일반적으로 일, 주, 월, 분기, 년 등으로 나뉘며, 일-주기 데이터 요구 사항이 가장 효율적이며 24 시간 또는 12 시간 이내에 고객은 어제의 데이터 분석을 볼 수 있음을 알 수 있습니다. 일부 기업은 매일 많은 양의 데이터를 가지고 있기 때문에 잘 설계되지 않은 데이터웨어 하우스는 종종 문제가 있습니다. 데이터를 제공하기 위해 1-3 일을 지연시키는 것은 분명히 불가능합니다.

2. 데이터 품질. 고객은 다양한 정보를 보려면 반드시 정확한 데이터를 확인해야 하지만, 데이터 웨어하우스 프로세스는 최소한 3 단계, 2 회 ETL 로 나뉘기 때문에 복잡한 스키마가 더 많은 계층을 갖게 됩니다. 데이터 소스에 더러운 데이터가 있거나 코드가 엄격하지 않기 때문에 데이터 왜곡이 발생할 수 있습니다. 고객이 잘못된 정보를 보면 잘못된 의사결정을 분석하고 이득이 아닌 손실을 초래할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 실패명언)

3. 확장성. 일부 대형 데이터웨어 하우스 시스템 아키텍처 설계가 복잡한 이유는 향후 3-5 년간의 확장성을 고려하여 고객이 데이터웨어 하우스 시스템을 재구성하는 데 너무 많은 돈을 쓰지 않고도 안정적으로 운영 할 수 있기 때문입니다. 주로 데이터 모델링의 합리성에 반영되며, 데이터 웨어하우스 스키마에는 중간 계층이 더 많이 추가되어 대용량 데이터 스트림을 충분히 버퍼링할 수 있으며, 데이터 양이 많지 않으면 실행할 수 없습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 데이터명언)