전통문화대전망 - 전통 미덕 - 전통적인 기업과 인터넷 기업의 데이터 분석의 유사점과 차이점은 무엇입니까?
전통적인 기업과 인터넷 기업의 데이터 분석의 유사점과 차이점은 무엇입니까?
현재 두 가지의 주요 차이점은 다음과 같습니다.
첫째, 구조화 된 데이터와 구조화되지 않은 데이터
전통적인 산업은 더 많은 구조화된 데이터, 즉 데이터베이스에 저장된 행 데이터로, 제조 기업의 ERP 시스템이 Oracle, SQL 서버 등의 데이터베이스를 사용하는 것과 같은 2 차원 테이블 구조로 논리적으로 표현될 수 있습니다. 인터넷 산업은 더 많은 구조화되지 않은 데이터를 가지고 있으며, 의료 영상 시스템, 교육용 비디오 주문형, 비디오 감시, 토지 GIS, 설계원, 파일 서버 등 모든 형식의 사무실 문서, 텍스트, 그림, XML, HTML, 다양한 보고서, 이미지, 오디오 비디오 정보 등 2D 로 설명할 수 없습니다.
둘째, 데이터 양
인터넷 업계의 방대한 데이터, 인터넷 업계의 특징으로 인해 시시각각 엄청난 양의 데이터가 생성되는데, 그 데이터는 종종 페타바이트급이다. 1 PB 는 얼마나 됩니까? 그것은 바이트의 2 의 50 제곱에 해당한다. 만약 당신이 이것에 대해 개념이 없다면, 간단히 말해서,' 사기' 는 약 52 만 자를 가지고 있고, 1 PB 는 최소한 1 억개의 역사를 저장할 수 있으며, 바이두, 텐센트, 알리를 대표할 수 있다. 전통적인 제조 공장에서 3 개월 동안 생산된 데이터도 100G 미만이다. 이것은 큰 차이입니다.
셋째, 데이터를 보는 방식은 데이터 분석의 목적과 다르다.
인터넷 업계는 이러한 방대한 데이터를 분석하고 발굴할 것이다. 과거 데이터든 실시간 데이터든, 데이터는 더 이상 정적이고 구식이 아닙니다. 서버에서 잊혀진 데이터는 우리, 행동, 현상과의 연관성을 찾기 위해 재사용될 수 있습니다. 예를 들어, 모든' 쌍십일',' 다자당당' 은 고통스러운 선택에 직면해 있다. 할인 상품이 너무 많은데 무엇을 사면 좋을까? 결국 부주의로 신용카드를 터뜨리고 불필요한 상품을 많이 사서 눈물을 머금고 강 스승을 반년 동안 먹었는데.
매일 구글은 전 세계에서 30 억 개가 넘는 검색 지시를 받는다. 수년간의 데이터 축적을 통해 구글은' 기침',' 발열' 등 검색키워드와 독감 지역 사이에 관계를 맺었기 때문에 2009 년 구글은 미국 겨울 독감의 전파를 예측하는 데 성공했다. 전통적인 산업은 과거 데이터에 너무 신경 쓰지 않습니다. 일반적으로 그들은 월말에 재고를 조사하여 재무 데이터 분석 보고서를 내놓는다. 기록 데이터는 백업 라이브러리에 저장되며 문제가 있을 때만 검색됩니다.
넷째, 데이터 검색의 효율성과 보안
인터넷 업계는 종종 사용자의 개인 행동 정보를 저장하며 12306 과 같은 절대적인 보안이나 정확성을 요구합니다. 매년 연말에는 수억 명의 사람들이 표를 사러 이주해야 한다는 압력에 직면해 있다. 춘윈 티켓 구매의 정점에 다다랐을 때, 그 요구는 사용자가 천천히 홈페이지를 열 수 있다는 것이다. 괜찮습니다. 하지만 이용자 구매표 정보의 절대적인 안전을 보장해야 합니다. 만약 사용자가 돈을 내서 고속 기차표 한 장을 샀는데, 네가 돈을 받지 못한다면, 수억 명의 돈을 마주하는 것은 분명 큰 문제일 것이다.
기존 업계에서는 데이터 양과 방문량이 그리 많지 않아 동시성, 교착 상태 등의 문제를 해결하여 시스템의 높은 신뢰성과 안정성을 보장하는 경우가 많습니다. 때때로 구매 기록이나 생산 기록을 잃어버리는 경우가 있습니다. 일반 사용자가 시스템에 들어갈 뿐만 아니라 종이 기록도 만들 수 있기 때문에 용인할 수 있습니다.
다섯째: 빅 데이터 기술은 귀중한 정보를 신속하게 얻을 수 있습니다.
인터넷 업계의 이러한 특징에 근거하여, 데이터의 양이 갈수록 커지면서 일련의 문제도 제기되고 있다.
예를 들어, 문제를 해결하기 위해 알고리즘 A 와 알고리즘 B 가 있다고 가정해 봅시다. 작은 데이터 양이 실행될 때 알고리즘 A 의 결과는 알고리즘 B 보다 훨씬 우수합니다. 즉, 알고리즘 자체의 경우 알고리즘 A 가 더 나은 결과를 가져올 수 있습니다. 그러나 데이터 양이 커지면 알고리즘 B 가 대량의 데이터에서 실행되는 결과가 알고리즘 A 가 소량의 데이터에서 실행되는 결과보다 낫다는 것을 알 수 있습니다. 이러한 발견은 컴퓨터 과학과 컴퓨터 파생 과학에 획기적인 계시를 가져왔다. 데이터가 커지면 데이터 자체 (데이터를 연구하는 데 사용되는 알고리즘과 모델이 아님) 가 데이터 분석 결과의 유효성을 보장한다는 것이다. 정확한 알고리즘이 없어도 충분한 데이터가 있으면 사실에 가까운 결론을 얻을 수 있다.
다양한 데이터 구조를 처리할 수 있기 때문에 큰 데이터는 인터넷에 기록된 인간 행동 데이터를 최대한 활용하여 분석할 수 있습니다. 큰 데이터가 나타나기 전에 모든 컴퓨터에서 처리할 수 있는 데이터는 선행 기간에 구조화되어 해당 데이터베이스에 기록되어야 합니다. 대형 데이터 기술의 데이터 구조에 대한 요구는 크게 감소했다. 소셜 정보, 지리적 위치 정보, 행동 습관 정보, 선호도 정보 등 사람들이 인터넷에 남긴 다양한 차원의 정보를 실시간으로 처리하여 각 개인의 다양한 특징을 입체적으로 그려낼 수 있다.
한 회사에서 만든 대량의 비정형 및 반정형 데이터는 분석을 위해 관계형 데이터베이스로 다운로드하는 데 너무 많은 시간과 비용이 소요됩니다. 실시간 대규모 데이터 세트 분석을 위해서는 MapReduce 와 같은 프레임워크가 수십 대, 수백 대, 심지어 수천 대의 컴퓨터에 작업을 할당해야 하기 때문에 대규모 데이터 분석은 클라우드 컴퓨팅과 연결되는 경우가 많습니다. 간단히 말해, 모든 종류의 데이터에서 귀중한 정보를 신속하게 얻을 수 있는 능력은 빅 데이터 기술입니다. 간단히 말해, 대용량 데이터에는 Hadoop=HDFS (파일 시스템, 데이터 스토리지 기술 관련) +HBase (데이터베이스) +MapReduce (데이터 처리)+...+... 기타, 분산 방식으로 대용량 데이터 처리
인터넷은 사람들의 생활을 크게 변화시켰고, 대량의 고속 변화무쌍한 정보가 매일 사람들을 둘러싸고 있다. 우리는 언제 어디서나 이런 변화에 대처할 수 있는 더 좋은 방법이 필요하다. 빅 데이터 기술은 인터넷 세계를 심각하게 변화시키고 전체 생산 생활 방식을 변화시킬 것이다. 기술이 발전함에 따라 빅 데이터 분석은 점점 더 쉬워지고, 점점 저렴해지고, 이전보다 업무에 대한 이해를 가속화할 수 있게 되었다. 점점 더 많은 사람들이 빅데이터와 데이터 분석 대열에 진입하여 이곳에서 자신의 사업을 할 준비를 하고 있다.
편집자? 2019-10-21