전통문화대전망 - 전통 미덕 - 빅데이터가 데이터베이스 환경을 어떻게 변화시키고 있는지
빅데이터가 데이터베이스 환경을 어떻게 변화시키고 있는지
빅데이터가 데이터베이스 환경을 어떻게 바꾸고 있는지
'데이터베이스'라고 하면 대부분의 사람들은 30년 이상의 역사를 지닌 RDBMS를 떠올릴 것이다. 그러나 이는 곧 변경될 수 있습니다. 수많은 새로운 경쟁자들이 이 중요한 시장을 위해 경쟁하고 있습니다. 그들의 방법은 다양하지만 모두 한 가지 공통점이 있습니다. 그들은 빅 데이터에 극도로 집중하고 있습니다. 새로운 데이터 반복을 주도하는 대부분의 파생물은 기본 빅 데이터의 3V 특성인 볼륨, 속도 및 다양성을 기반으로 합니다. 본질적으로 오늘날의 데이터는 이전보다 더 빠르게 이동하고, 더 크고, 더 다양해졌습니다. 이는 새로운 데이터 세계입니다. 즉, 기존의 관계형 데이터베이스 관리 시스템은 실제로 이를 위해 설계되지 않았습니다. 데이터 분석 및 데이터 과학 컨설팅 회사의 사장인 Gregory는 "기본적으로 대량으로, 빠르게 또는 다양한 종류의 데이터로 확장할 수 없습니다."라고 말했습니다. 이것이 Hart Hanks가 최근에 발견한 것입니다. 2013년경에 마케팅 서비스 조직은 Microsoft SQL Server와 Oracle RAC(Real Application Clusters)의 조합을 포함하여 다른 데이터베이스를 사용했습니다. 기술 개발 회사의 책임자인 Sean은 "시간이 지남에 따라 데이터가 증가함에 따라 우리 시스템이 정보를 충분히 빠르게 처리할 수 없다는 것을 알게 되었습니다."라고 말했습니다. Iannuzzi는 "계속해서 서버를 구매해야만 한계를 극복할 수 있으며 확장할 수 있는 플랫폼을 확보하고 싶습니다. 중단을 최소화하는 것이 중요한 목표이므로 단순히 Hadoop으로 전환할 수는 없습니다."라고 말했습니다. 그는 기계를 하나로 연결하여 인기 있는 Hadoop 빅 데이터 플랫폼 위에 전체 SQL 데이터베이스를 배치하고 기존 애플리케이션을 여기에 연결할 수 있다고 주장했습니다. Hart-Hanks는 현재 구현 초기 단계에 있지만 향상된 내결함성, 고가용성, 중복성, 안정성 및 "전반적인 성능 향상"을 포함하여 이미 이점을 보고 있다고 Iannuzzi는 말했습니다. IDC의 연구 부사장인 Carl Olofson은 완벽한 폭풍이 새로운 데이터베이스 기술의 출현을 주도하고 있다고 말했습니다. 첫째, "우리가 사용하는 장비는 과거보다 대규모 데이터 세트를 처리하는 데 훨씬 더 빠르고 유연해졌습니다"라고 Olofson은 말했습니다. 과거에는 이러한 컬렉션이 "거의 회전하는 디스크에 있어야 했고" 데이터가 특정 방식으로 구성되어야 했다고 그는 설명했습니다. 이제 64비트 주소 지정이 가능하므로 더 큰 저장 공간과 더 빠른 네트워크를 설정하고 여러 계산기를 함께 연결하여 하나의 대규모 데이터베이스처럼 작동할 수 있습니다. Olofson은 "이러한 기능은 사용할 수 없게 되기 전에 가능성을 열어줍니다."라고 말했습니다. 동시에 작업 부하도 변경되었습니다. 10년 전 웹사이트는 주로 정적이었습니다. 예를 들어 오늘날 우리는 웹 서비스 환경과 대화형 쇼핑 경험을 즐깁니다. 결과적으로 새로운 확장성이 필요하다고 그는 말했습니다. 기업은 데이터를 사용하는 새로운 방법을 활용하고 있습니다. 전통적으로 우리의 초점은 거래 처리(예: 데이터가 분석될 수 있는 위치에 저장되는 곳) 등 총 매출을 기록하는 것이었지만 이제는 훨씬 더 많은 작업을 수행합니다. 애플리케이션 상태 관리를 예로 들어보겠습니다. 이 기술은 시스템과 관련된 모든 세션을 기록하고 이를 함께 연결하여 지속적인 경험을 제공합니다. 장치를 바꾸거나 이동하더라도 다른 서버가 이를 처리한다고 Olofson은 설명했습니다. 기업이 "왜 크리스탈 홀에 아무도 다니지 않는 걸까?"와 같은 질문을 분석할 수 있으려면 데이터가 연속적이어야 합니다. 온라인 쇼핑의 경우, 왜 대부분의 사람들은 다른 사람이 색상을 선택하기 위해 클릭한 후에 특정 브랜드의 신발을 구매하지 않습니까? "이전에는 우리가 이러한 문제를 해결하려고 시도하지 않았거나 우리가 던지려고 했던 상자가 딱 맞지 않았습니다"라고 Olofson은 말했습니다. Hadoop은 오늘날의 새로운 경쟁사 중에서 가장 강력한 제품입니다. 그 자체로는 데이터베이스는 아니지만, 그 성장은 기업의 빅데이터 문제를 해결하는 데 핵심적인 역할을 합니다. 본질적으로 Hadoop은 고도로 병렬 애플리케이션을 실행하고 확장성이 뛰어난 데이터 센터 플랫폼입니다. 기업이 값비싼 추가 서버를 통해 배포를 '확대'하는 것이 아니라 '외부' 확장할 수 있게 함으로써 "대규모 데이터 세트를 저렴하게 집계한 다음 결과를 분석할 수 있습니다"라고 Olofson은 말했습니다. 다른 새로운 RDBMS 대안으로는 현재 네 번째로 인기 있는 데이터베이스 관리 시스템인 MongoDB, Compare DB Engine 및 MarkLogic 비정형 데이터 스토리지 서비스를 포함하는 NoSQL 제품군이 있습니다. MarkLogic 부사장인 Joe Paka는 "관계형 데이터베이스는 30년 동안 훌륭한 기술이었지만 기술 제약과 시장 요구가 서로 다른 시대에 구축되었습니다."라고 말했습니다. 빅데이터는 고르지 않다고 그는 말했다. 많은 기존 기술에서 이는 여전히 기본 요구 사항으로 남아 있습니다. Paca는 "노트북에 있는 유일한 프로그램이 Excel이라고 상상해 보세요."라고 말했습니다. "인터넷을 통해 친구들과 연락을 유지하려고 하거나 행과 열에 맞지 않는 계약서를 작성한다고 상상해 보십시오." 데이터 세트를 연결하는 것은 특히 까다롭습니다. 그렇게 하기 전에 모든 열을 어떻게 정리할지 결정해야 한다"고 덧붙였다. "우리는 어떤 형태나 구조든 즉시 사용할 수 있습니다." NoSQL 데이터베이스는 관계형 데이터 모델을 사용하지 않으며 일반적으로 SQL 인터페이스도 없습니다.
많은 NoSQL 스토리지 절충안에는 속도 및 기타 요소가 포함되지만 MarkLogic은 기업에 맞춤화된 보다 포괄적인 옵션을 제공합니다. NoSQL 스토리지 시장은 상당한 성장을 보이고 있으며 시장 조사 매체에 따르면 모든 사람이 이것이 올바른 접근 방식이라고 생각하는 것은 아닙니다. 적어도 모든 경우는 아닙니다. NoSQL 시스템은 "많은 문제를 해결하고 아키텍처를 확장하지만 SQL을 창밖으로 내보냅니다"라고 한 CEO인 Monte Zweben이 말했습니다. 이는 결국 기존 코드에 문제를 야기합니다. 스플라이스머신(SpliceMachine)은 SQL 트랜잭션 처리를 지원하고 OLAP, OLAP 애플리케이션에 대한 실시간 최적화 처리를 수행하는 하둡 기반의 실시간 빅데이터 기술 기업이다. 이는 향후 몇 년 동안 강력한 성장이 예상되는 또 다른 범주인 NewSQL에 대한 대안의 예로 여겨져 왔습니다. Zweben은 "SQL을 유지하면서 아키텍처를 확장하는 것이 아이디어입니다."라고 말했습니다. "새롭지만 우리는 사람들이 자신의 내용을 다시 작성할 필요가 없도록 만들려고 노력하고 있습니다." Deep Information Sciences는 SQL을 선택하고 고수했지만 다른 접근 방식이 필요했습니다. 이 회사의 DeepSQL 데이터베이스는 MySQL과 동일한 애플리케이션 프로그래밍 인터페이스(API) 및 관계형 모델을 사용하므로 이를 사용하기 위해 애플리케이션을 변경할 필요가 없습니다. 하지만 머신러닝을 사용하여 다른 방식으로 데이터를 처리합니다. DeepSQL은 물리적, 가상 또는 클라우드 호스트의 모든 워크로드 조합을 사용하도록 자동으로 적응할 수 있으므로 데이터베이스를 수동으로 최적화할 필요가 없습니다. 회사의 최고 전략 책임자인 채드 존스(Chad Jones)는 회사의 성과가 크게 향상되었지만 수천억 달러 규모의 사업으로 "확장"할 수 있는 능력도 갖추고 있다고 말했습니다. 데이터에 대한 최초의 진정한 수학적 기초가 개발된 Algebraix Data와는 완전히 다른 접근 방식입니다. Algebraix CEO Charles Silver는 수학적 모델링에 앞서 계산기 하드웨어를 구축해야 하지만 소프트웨어의 경우에는 그렇지 않다고 말했습니다. "소프트웨어, 특히 데이터는 결코 수학에 기반을 두지 않았습니다. 소프트웨어는 언어학적인 문제입니다." Algebraix는 5년간의 연구 개발 끝에 "데이터의 대수학" 컬렉션을 만들었습니다. 이론은 "데이터의 보편적 언어"라고 Silver는 말했습니다. Silver는 "빅 데이터의 더러운 작은 비밀은 데이터가 여전히 다른 데이터와 통합되지 않은 사일로에 있다는 것입니다."라고 설명합니다. “우리는 모든 통합을 수학적으로 표현하는 것이 가능하다는 것을 입증했습니다.” 기본 플랫폼을 갖춘 Algebraix는 이제 비즈니스 분석을 기업에 서비스로 제공합니다. 향상된 성능, 용량 및 속도는 모두 약속대로 실행됩니다. 어떤 새로운 경쟁자가 성공하고 어떤 경쟁자가 성공하지 못하는지는 시간이 말해줄 것입니다. 그러나 그 동안 Oracle과 같은 장기적인 리더들은 완전히 가만히 있지는 않을 것입니다. Oracle의 데이터베이스 서버 기술 담당 부사장인 Andrew Mendelsohn은 "소프트웨어는 매우 트렌디한 산업입니다."라고 말했습니다. "상황은 종종 인기가 없어졌다가 다시 인기를 얻습니다." 오늘날 많은 스타트업은 "약간 다듬거나 변형하여 오래된 것을 다시 가져옵니다"라고 그는 말합니다. "학교를 졸업하고 사물을 재창조하는 새로운 세대의 아이들입니다." SQL은 "비즈니스 분석가가 질문하고 답을 얻을 수 있는 유일한 언어이며 프로그래머는 없습니다"라고 Mendelsohn은 말했습니다. "큰 시장은 항상 관계형입니다." 새로운 데이터 유형에 관해서는 1990년대 초에 비정형 데이터를 지원하기 위해 관계형 데이터베이스 제품이 개발되었다고 그는 말했습니다. 2013년에는 동일한 이름의 Oracle 데이터베이스 버전 12C에 JSON(JavaScript Object Notation)에 대한 지원이 추가되었습니다. Mendelsohn은 다른 종류의 데이터베이스가 필요하기보다는 비즈니스 모델의 변화에 가깝다고 말했습니다. "클라우드, 만약 모두가 간다면 이 작은 사람들을 파괴할 것입니다."라고 그는 말했습니다. "모두가 클라우드에 있습니다. 그렇다면 여기에 이 작은 사람들을 위한 공간이 있습니까? "그들이 Amazon과 경쟁하기 위해 Amazon의 클라우드로 갈 것입니까?" "라고 덧붙였다. "어려울 것입니다. Mendelsohn은 "오라클은 가장 광범위한 클라우드 서비스를 보유하고 있습니다."라고 말했습니다. "우리는 현재 위치에 대해 만족하고 있습니다." Gartner의 연구 책임자인 Rick Greenwald는 "기존의 강력한 RDBMS와 비교할 때 새로운 대안은 완전히 기능하지 않습니다."라고 Greenwald는 말했습니다. "일부 사용 사례는 새로운 RDBMS와 비교할 수 있습니다." 하지만 전부는 아니고 하나의 기술이 아닙니다." Greenwald는 앞으로 기존 RDBMS 공급업체가 증가하는 가격 압박을 느끼고 제품에 새로운 기능을 추가할 것으로 예상합니다. 일부는 자유롭게 새로운 경쟁자를 불러와 자체 전체 데이터를 관리할 수 있을 것입니다. 그는 “신제품에 관해서는 소수만이 살아남을 것이며, 많은 제품이 인수되거나 자금이 고갈될 것”이라고 예측했다. 오늘날의 신기술은 “스스로 빠르게 진화하고 있는 전통적인 RDBMS의 종말을 의미하지 않는다. IDC의 Olofson은 "RDBMS는 데이터에 대해 명확하게 정의된 역할을 가져야 할 것"이라고 동의합니다. "그러나 특히 사물 인터넷 기술과 비휘발성 메모리 칩 모듈(NVDIMM)과 같은 신흥 기술을 비롯한 일부 새로운 경쟁업체의 역할도 있을 것입니다."라고 그는 말했습니다.