전통문화대전망 - 전통 미덕 - 데이터 마이닝에서 데이터 저장의 중요성

데이터 마이닝에서 데이터 저장의 중요성

인터넷의 붐과 함께 사물인터넷, 클라우드 컴퓨팅, 빅데이터, 인공지능 등이 대중의 눈에 점점 더 자주 등장하고 있다.

클라우드 컴퓨팅은 인간의 두뇌이자 사물 인터넷의 신경 중추에 해당합니다. 클라우드 컴퓨팅은 관련 서비스의 추가, 사용 및 제공을 위한 인터넷 기반 모델로, 일반적으로 인터넷을 통해 동적으로 확장 가능하고 가상화되는 경우가 많은 리소스를 제공합니다.

빅데이터는 초등학교부터 대학까지 인간의 두뇌가 기억하고 저장하는 방대한 지식과 동일하며, 이 지식은 소화, 흡수, 재구성을 통해서만 더 큰 가치를 창출할 수 있습니다.

인공지능을 비유하면 사람이 인간의 방대한 지식(데이터)을 흡수해 지속적으로 깊이 있게 학습하고 진화해 전문가가 된다는 뜻이다. 인공지능은 빅데이터와 불가분의 관계에 있으며, 클라우드 컴퓨팅 플랫폼을 기반으로 딥러닝의 진화를 완성합니다.

사물인터넷은 기존 '인터넷+'와 마찬가지로 인터넷의 애플리케이션 확장으로, 인터넷 비즈니스와 애플리케이션을 결합한 것으로 사용자 경험 중심의 애플리케이션 혁신을 핵심으로 한다.

'빅데이터'에 대해 주로 이야기한다.

빅 데이터의 정의

2001년경 Gartner는 빅 데이터에 대해 다음과 같은 정의를 제안했습니다(아직도 빅 데이터에 대한 권위 있는 설명입니다). 빅 데이터는 속도(Velocity)를 의미합니다. 다양한 데이터가 많이 나옵니다. 이 정의는 빅데이터가 3V 특성을 가지고 있음을 나타냅니다.

간단히 말하면, 빅데이터는 점점 더 커지고 복잡해지는 데이터 세트, 특히 새로운 데이터 소스에서 나온 데이터 세트를 의미합니다. 그 규모가 너무 커서 기존의 데이터 처리 소프트웨어로는 무력하지만 이를 해결하는 데 도움이 될 수 있습니다. 과거에 어려운 사업 문제.

빅 데이터의 가치와 진정성

지난 몇 년 동안 빅 데이터의 정의에 가치와 진실성이라는 두 가지 새로운 "V"가 추가되었습니다.

우선 데이터에는 분명 가치가 있지만, 그 가치가 적절한 방법으로 채굴되지 않으면 그 데이터는 무용지물이 됩니다. 둘째, 실제적이고 신뢰할 수 있는 데이터만이 의미가 있습니다.

오늘날 빅데이터는 일종의 자본이 되었습니다. 전 세계 모든 대형 기술 기업은 빅데이터의 작동 원리를 기반으로 다양한 빅데이터 활용 사례에서 데이터를 지속적으로 분석하여 운영 효율성을 향상하고 새로운 제품의 개발 창출된 가치의 대부분은 보유하고 있는 데이터에서 비롯됩니다.

현재 많은 최첨단 기술 혁신으로 인해 데이터 저장 및 컴퓨팅 비용이 기하급수적으로 절감되었습니다. 기업은 과거보다 더 적은 경제적 투자로 더 많은 데이터를 더 쉽게 저장할 수 있으며, 저렴하고 접근하기 쉬운 대용량 빅데이터를 통해 더 정확하고 정밀한 비즈니스 의사결정을 쉽게 내릴 수 있습니다.

그러나 빅데이터 작동 원리의 관점에서 볼 때 빅데이터 가치 마이닝은 단순한 데이터 분석이 아닌 완전한 탐색 프로세스입니다. 이를 위해서는 통찰력 있는 분석가, 비즈니스 사용자 및 관리자가 효과적인 질문을 하고 식별해야 합니다. 데이터 패턴을 구축하고, 합리적인 가설을 수립하고, 빅 데이터 사용 사례의 동작을 정확하게 예측합니다.

빅데이터의 역사

빅데이터라는 개념이 비교적 최근에 등장했지만, 대규모 데이터 세트의 유래는 1960~1970년대로 거슬러 올라간다. 당시 데이터 세계는 초기 단계였으며, 세계 최초의 데이터 센터와 최초의 관계형 데이터베이스가 등장한 시기였습니다.

2005년쯤부터 사람들은 페이스북, 유튜브 등 온라인 서비스를 이용하면서 엄청난 양의 데이터가 생성된다는 사실을 깨닫기 시작했다. 같은 해 대규모 데이터 세트를 저장하고 분석하기 위해 특별히 개발된 오픈 소스 프레임워크인 하둡(Hadoop)이 출시되었고, 같은 기간 동안 NoSQL이 서서히 인기를 얻기 시작했습니다.

Hadoop과 이후 Spark와 같은 오픈소스 프레임워크의 출현은 데이터 저장 비용을 줄이고 빅데이터를 더 쉽게 사용할 수 있도록 하는 빅데이터 개발에 큰 의미를 갖습니다. 그 후 몇 년 동안 빅데이터의 양은 더욱 폭발적으로 증가했습니다. 오늘날까지도 전 세계의 '사용자'는 인간뿐만 아니라 기계도 계속해서 막대한 양의 데이터를 생성하고 있습니다.

사물인터넷(IoT)이 등장하면서 점점 더 많은 기기가 인터넷에 연결되고, 이를 통해 대량의 고객 사용 패턴과 제품 성능 데이터가 수집되고, 머신러닝의 등장이 가속화되고 있습니다. 데이터 수집량 증가가 더욱 가속화되었습니다.

그러나 오랜 시간이 지났음에도 불구하고 사람들의 빅데이터 활용은 이제 막 시작되었습니다. 오늘날 클라우드 컴퓨팅은 진정한 탄력성/확장성을 제공하여 개발자가 임시 클러스터를 쉽게 가동하여 데이터 하위 집합을 테스트할 수 있도록 함으로써 빅 데이터의 잠재력을 더욱 활용합니다.

빅 데이터 및 데이터 분석의 장점:

1. 빅 데이터는 더 많은 정보를 의미하며, 이는 더 포괄적인 통찰력을 제공할 수 있습니다.

2. 더 포괄적인 통찰력은 더 높은 신뢰성을 의미하며 새로운 솔루션을 개발하는 데 도움이 됩니다.

둘째, 빅데이터 역시 대용량, 고속, 다양성, 저밀도라는 4가지 특성을 갖고 있다.

다양성: 빅데이터와 기존 데이터의 가장 큰 차이점은 데이터의 양이 Douyin 데이터 스트림, Baidu 클릭 스트림 등 기존 데이터보다 훨씬 크다는 것입니다. 대용량 저밀도 데이터의 경우 데이터 볼륨이 수십 페타바이트에 달하는 경우가 많습니다. 또한 기존 방식으로는 엄청난 양의 데이터를 저장하고 처리할 수 없기 때문에 빅데이터라는 새로운 과학이 등장했습니다.

빠른 속도: 빅데이터와 기존 데이터의 가장 큰 차이점은 빠른 생성 속도입니다. 인터넷의 발달과 정보기기의 대중화로 인해 20억 명이 넘는 사용자를 보유한 페이스북을 예로 들면, 각 사용자가 매일 메시지를 보낸다면 20억 개의 정보가 존재하게 됩니다. 누구나 언제 어디서나 데이터를 생성할 수 있고, 데이터 생성 속도도 더 이상 과거와 비교할 수 없습니다.

다양성(Diversity): 다양성이란 빅데이터의 등장으로 인해 텍스트, 오디오, 비디오 등의 데이터 유형이 끊임없이 등장하고 있으며, 이를 진정으로 제공하려면 추가적인 전처리 작업이 필요합니다. 통찰력과 지원 메타데이터. 빅데이터 저장 역시 형태가 다양하고 복잡하기 때문에 기존 데이터와는 다른 저장 기술이 필요하다.

낮은 밀도: 인터넷과 사물 인터넷이 널리 보급되면서 정보의 인식이 널리 퍼져 있고 정보의 양은 많지만 가치 밀도는 상대적으로 낮습니다. 영상을 예로 들면, 1시간 분량의 영상을 중단 없이 모니터링하는 동안 유용한 데이터는 1~2초 정도밖에 남지 않을 수 있습니다.

빅데이터의 과제

1. 보안 과제

빅데이터는 활용 범위가 넓어 다양한 분야에서 발전 추세가 되었지만, 때로는 FaceBook 데이터 유출, Google+ 개인 유출, 기타 데이터 유출로 인해 개인정보 문제를 일으키는 사건 등 사용자 개인정보 노출이 수반되기도 합니다. 사용자의 데이터 중 어떤 데이터를 획득할 수 있고 어떤 데이터를 열람할 수 없는지, 사용자의 개인 정보를 침해할 수 있는 법적 위험이 항상 존재합니다.

2. 기술 혁신

빅 데이터에는 새로운 컴퓨팅 플랫폼이든, 분산이든 기본 칩부터 기본 소프트웨어, 애플리케이션 분석 소프트웨어까지 전체 정보 산업 체인의 지원이 필요합니다. 컴퓨팅 아키텍처 및 빅데이터 처리, 분석 및 표현 측면에서 외국과 큰 격차가 있습니다. 오픈 소스 기술 및 관련 생태계에 대한 영향력은 여전히 ​​약하고 일반적으로 다양한 산업의 빅데이터 응용 요구를 충족시키기 어렵습니다.

3. 비용이 너무 높습니다.

운영자는 기본적으로 페타바이트 단위로 측정되는 엄청난 양의 데이터를 처리해야 합니다.

4. 실시간 성능

실시간 품질의 데이터만이 가치가 있습니다. 데이터가 오래 저장될수록 데이터의 가치는 낮아집니다. 오늘날 빠르게 변화하는 사회에서 시장은 매일 빠르게 변화하고 있습니다. 브랜드는 빅데이터를 통해 사용자의 요구를 분석합니다. 획득한 사용자 데이터가 너무 오래된 경우, 이 데이터를 참조하여 제품의 방향을 계획하는 것은 부정적인 영향을 미칠 수 있습니다. 회사의 발전에 치명적인 타격.

어떤 산업이든 오늘날의 상황에서 성공하려면 데이터에서 지속적으로 비즈니스 가치를 창출할 수 있어야 합니다. 따라서 데이터 보호는 현재 스토리지와 분리될 수 없습니다. 시장은 메모리가 주로 솔리드 스테이트 드라이브, 하이브리드 하드 드라이브 및 기존 하드 드라이브를 포함합니다.

SSD(Solid State Drive)는 제어 장치와 저장 장치로 구성됩니다. 솔리드 스테이트 드라이브의 인터페이스 사양, 정의, 기능 및 용도는 일반 하드 드라이브와 동일하며 모양과 크기도 일반 하드 드라이브와 동일합니다. 군사, 차량, 산업 제어, 비디오 감시, 네트워크 모니터링, 네트워크 터미널, 전력, 의료, 항공, 항법 장비 및 기타 분야에서 널리 사용됩니다.

장점: 빠른 읽기 및 쓰기 속도, 낮은 전력 소비. 소음 없음, 넓은 작동 온도 범위, 단점: 작은 용량, 높은 가격.

하이브리드 하드드라이브는 기존의 하드드라이브와 플래시 메모리 모듈로 구성된 대용량 저장장치다. 플래시 메모리는 가장 자주 기록되거나 복원되는 메모리의 데이터를 처리합니다. 많은 기업들이 고급 시스템, 특히 랩탑과 휴대용 컴퓨터에서 대중화되기를 바라는 다양한 기술을 제공하고 있습니다.

하이브리드 하드 드라이브는 기존 하드 드라이브에 비해 더 빠른 데이터 저장 및 복구, 더 빠른 시스템 시작 시간, 더 낮은 열 발생, 더 긴 하드 드라이브 수명, 및 노트북 배터리 수명;소음 수준 감소:

기존 하드 드라이브는 컴퓨터의 가장 기본적인 메모리인 기계식 하드 드라이브(HDD)를 말하며 종종 컴퓨터 하드 드라이브의 C 드라이브라고 말합니다. D 드라이브는 디스크 파티션이며 하드 디스크에 속합니다. 현재 일반 하드 드라이브의 용량에는 80G, 128g, 160g, 256g, 320g, 500g, 750g, 1TB, 2TB 등이 있습니다. 용량에 따라 3.5인치, 2.5인치, 1.8인치, 5400rpm으로 나눌 수 있습니다. /7200rpm/10000rpm 등

사물 인터넷을 통해 대량의 데이터가 생성되고 수집되어 클라우드 플랫폼에 저장되고, 빅데이터 분석과 더 높은 형태의 인공지능을 통해 인간의 생산 활동과 일상 요구에 더 나은 서비스를 제공합니다. 생성된 모든 데이터의 전달자인 스토리지는 4차 산업혁명 진화의 밝은 별이 될 것입니다.