전통문화대전망 - 전통 미덕 - 기존 데이터베이스와 데이터 웨어하우스의 차이점
기존 데이터베이스와 데이터 웨어하우스의 차이점
데이터베이스는 일반적으로 온라인 트랜잭션 데이터를 저장하고, 데이터 웨어하우스는 일반적으로 과거 데이터를 저장합니다. < P > 데이터베이스 설계는 중복성을 최대한 피하고, 일반적으로 패러다임에 맞는 규칙을 사용하여 설계되었으며, 데이터 웨어하우스는 의도적으로 중복성을 도입하고 반패러다임 방식으로 설계됩니다.
데이터베이스는 데이터 캡처를 위해 설계되었으며 데이터 웨어하우스는 데이터 분석을 위해 설계되었으며 두 가지 기본 요소는 차원 테이블과 사실 테이블입니다. 차원은 시간, 부서, 차원 테이블과 같은 문제를 보는 관점입니다. 사실 테이블에는 조회할 데이터와 차원 ID 가 들어 있습니다.
개념적으로만 보면 좀 애매하다. 어떤 기술이든 앱을 위한 것이므로, 응용과 결합하면 쉽게 이해할 수 있다. 은행 업무를 예로 들다. 데이터베이스는 고객이 은행에서 하는 모든 거래가 데이터베이스에 기록되고 기록되는 트랜잭션 시스템의 데이터 플랫폼입니다. 여기서는 단순히 데이터베이스 회계로 이해할 수 있습니다. 데이터 웨어하우스는 트랜잭션 시스템에서 데이터를 가져와 요약 및 처리하여 의사 결정자에게 의사 결정의 근거를 제공하는 분석 시스템의 데이터 플랫폼입니다. 예를 들어, 한 은행의 한 지점에서 한 달에 얼마나 많은 거래가 발생했으며, 그 지점의 현재 예금 잔액은 얼마입니까? 예금이 많고 소비 거래가 많다면 그 지역에 ATM 을 설립할 필요가 있다. < P > 분명히 은행의 거래량은 어마하다. 보통 백만 ~ 천만 번으로 계산된다. 트랜잭션 시스템은 실시간입니다. 이를 위해서는 적시성이 필요합니다. 고객이 돈을 저축하는 데 수십 초가 걸리는 것은 참을 수 없습니다. 이를 위해서는 데이터베이스에 짧은 기간 동안의 데이터만 저장해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 트랜잭션명언) 분석 시스템은 사후이며, 관심 기간 동안의 모든 유효 데이터를 제공해야 한다. 이 데이터는 거대하며 요약 계산도 좀 느리지만, 효과적인 분석 데이터를 제공할 수 있는 한 목적을 달성할 수 있다. < P > 데이터 웨어하우스는 데이터베이스가 이미 대량으로 존재하는 상황에서 데이터 자원을 더 발굴하고 의사 결정 요구를 위해 생성된 것으로, 결코' 대형 데이터베이스' 가 아니다. 그렇다면 데이터 웨어하우스와 기존 데이터베이스의 차이점은 무엇입니까? 먼저 W.H.Inmon 의 데이터 웨어하우스 정의 (주제 지향, 통합, 시간 관련, 수정할 수 없는 데이터 집합) 를 살펴보겠습니다.
"주제 지향": 기존 데이터베이스는 주로 어플리케이션을 위한 데이터 처리이며 동일한 주제에 따라 데이터를 저장할 필요가 없습니다. 데이터 웨어하우스는 데이터 분석 작업에 중점을 두고 주제별로 저장됩니다. 이 점은 전통적인 농산물 시장과 슈퍼마켓의 차이와 비슷하다. 시장에서 배추, 무, 고수는 작은 판매인 경우 노점에 있을 것이다. 슈퍼마켓에서는 배추, 무, 고수가 각각 한 개씩 있다. 즉, 시장의 요리 (데이터) 는 노점상 (앱) 에 따라 쌓여 있고, 슈퍼마켓 안에는 음식의 유형 (같은 주제) 에 따라 쌓여 있다.
시간 관련: 데이터베이스가 정보를 저장할 때 시간 정보가 있어야 한다는 점을 강조하지 않습니다. 데이터 웨어하우스는 의사 결정의 필요에 따라 데이터 웨어하우스의 데이터에 시간 속성을 표시해야 합니다. 의사 결정에서 시간 속성은 매우 중요합니다. 마찬가지로 모두 9 차 제품을 누적 구매한 고객입니다. 한 명은 최근 3 개월 동안 9 차를 구매하고, 한 명은 최근 1 년 동안 한 번도 사지 않은 고객입니다. 이는 의사결정권자에게는 의미가 다릅니다.
수정할 수 없음: 데이터 웨어하우스의 데이터는 최신 상태가 아니라 다른 데이터 소스에서 가져온 것입니다. 데이터 웨어하우스는 과거 정보를 반영하고 있으며, 많은 데이터베이스에서 처리하는 일상적인 트랜잭션 데이터 (통신 청구 데이터베이스, 실시간 정보 처리 등 일부 데이터베이스) 는 아닙니다. 따라서 데이터 웨어하우스의 데이터는 거의 또는 전혀 수정되지 않습니다. 물론 데이터 웨어하우스에 데이터를 추가할 수 있습니다.
데이터 웨어하우스의 출현은 데이터베이스를 대체하는 것이 아닙니다. 현재 대부분의 데이터 웨어하우스는 관계형 데이터베이스 관리 시스템으로 관리됩니다. 데이터베이스, 데이터 웨어하우스가 서로 보완되고 각각 천추라고 할 수 있다. < P > 데이터 웨어하우스의 시나리오 구축의 목적은 프런트 엔드 쿼리 및 분석을 기반으로 하는 것으로, 중복이 크기 때문에 필요한 스토리지도 크다. 프런트 엔드 애플리케이션을 더 잘 서비스하기 위해서는 데이터 웨어하우스에 다음과 같은 이점이 있어야 합니다. 그렇지 않으면 실패한 데이터 웨어하우스 스키마입니다.
1. 효율성이 충분히 높다. 고객이 요구하는 분석 데이터는 일반적으로 일, 주, 월, 분기, 년 등으로 나뉘며, 일-주기 데이터 요구 사항이 가장 효율적이며 24 시간 또는 12 시간 이내에 고객은 어제의 데이터 분석을 볼 수 있음을 알 수 있습니다. 일부 기업은 매일 많은 양의 데이터를 가지고 있기 때문에 잘 설계되지 않은 데이터웨어 하우스는 종종 문제가 있습니다. 데이터를 제공하기 위해 1-3 일을 지연시키는 것은 분명히 불가능합니다.
2. 데이터 품질. 고객은 다양한 정보를 보려면 반드시 정확한 데이터를 확인해야 하지만, 데이터 웨어하우스 프로세스는 최소한 3 단계, 2 회 ETL 로 나뉘기 때문에 복잡한 스키마가 더 많은 계층을 갖게 됩니다. 데이터 소스에 더러운 데이터가 있거나 코드가 엄격하지 않기 때문에 데이터 왜곡이 발생할 수 있습니다. 고객이 잘못된 정보를 보면 잘못된 의사결정을 분석하고 이득이 아닌 손실을 초래할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 실패명언)
3. 확장성. 일부 대형 데이터웨어 하우스 시스템 아키텍처 설계가 복잡한 이유는 향후 3-5 년간의 확장성을 고려하여 고객이 데이터웨어 하우스 시스템을 재구성하는 데 너무 많은 돈을 쓰지 않고도 안정적으로 운영 할 수 있기 때문입니다. 주로 데이터 모델링의 합리성에 반영되며, 데이터 웨어하우스 스키마에는 중간 계층이 더 많이 추가되어 대용량 데이터 스트림을 충분히 버퍼링할 수 있으며, 데이터 양이 많지 않으면 실행할 수 없습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 데이터명언)