전통문화대전망 - 전통 미덕 - 데이터 과학자가 되는 법
데이터 과학자가 되는 법
때로는 데이터 규모가 매우 클 수 있으므로 복잡한 도구와 방법을 사용하여 안개를 뚫고 데이터에 숨겨진 명확한 결론을 도출해야 합니다. 하지만 어떤 방법, 일, 방정식도 모든 질문에 대답할 수 없기 때문에 데이터 과학자를 정의하기가 어렵다.
프레젠테이션은 진술보다 설득력이 있을 수 있습니다. 데이터 과학자의 평범하고 평범하지 않은 날로 들어가자.
아침
아침의 첫 번째 일은 이 날 일정에서 몇 안 되는 관례일 수 있다.
우리 팀은 전날 진행 상황과 문제를 공유하기 위해 아침에 정기 모임을 가졌습니다. 이것은 소프트웨어 개발의' 서 있는' 회의와는 조금 다를 수 있다. 우리에게' 진전' 은 일부 소프트웨어를 구축하거나 상대방의 머리 문제를 더 잘 이해할 수 있는 논문을 읽는 것일 수 있다. < P > 데이터 과학은 여러 방면에서 대학의 학술적 행위와는 다를 수 있지만 여전히 과학적 방법의 합리적 운용이다.
일반적으로 우리의 과제는 "알 수 없음" 을 "알 수 있음" 으로 바꾸는 것입니다. 뿐만 아니라 "실행 가능" 하게 만들어야 합니다. < P > 즉, 데이터를 분석하여 가정을 검사하고, 측정 효과를 설정하고, 최종 연구 결과가 충분히 유용한 수준으로 수정될 때까지 프로세스를 반복합니다. 아침회는 각 실험의 진척을 교류할 수 있는 기회이다.
오전
이제 우리는 각자의 임무가 있다. 그것은 약간의 실제 작업을 할 시간이 야. 이것은 하루 중 가장 재미있는 부분이다. 이것은 내가 앉아서 실제 문제에 집중할 때이다. < P > 이는 짝수 그래프를 처리하는 방법을 연구하거나 가우스 초기하학 함수를 계산하는 코드를 작성하는 것을 의미할 수 있습니다. 그러나 매주 직면하는 문제는 거의 동일하지 않다. 수학, 통계 및 프로그래밍의 배경을 갖는 것은 이러한 문제를 해결하는 데 중요하지만 여전히 충분하지 않습니다. 모든 방법의 전문가가 되는 것은 불가능하다. 다음 질문에 어떤 지식이 필요할지도 예측할 수 없다. < P > 이것이 바로 데이터 과학자들이 끊임없는 학습과 끝없는 호기심을 필요로 하는 이유이다.
대부분의 경우 새로운 문제마다 새로운 접근 방식이 필요합니다. 이 방법들은 너에게는 새로운 것이 아니라, 온 세상에도 새로운 것이다. 이것은 데이터 과학의 도전과 자극의 원천이다. < P > 불확실성은 통계학의 속성일 뿐만 아니라 생활방식이기도 하다. < P > 정오 < P > 데이터 과학의 실천은 특정 알고리즘의 기술적 세부 사항을 적용하거나 화이트보드에 깊은 방정식을 쓰는 것 이상입니다. < P > 결국 우리는 현실 생활의 문제를 해결해야 한다. 이것은 다른 사람들이 직면한 문제를 이해하는 것을 의미한다. 정오는 고객, 비즈니스 개발 부서, 서비스 부서 및 고객과 파트너가 매일 직면하는 문제에 대해 잘 알고 있는 모든 사람을 만날 수 있는 좋은 시간입니다. < P > 빅 데이터 분석과 기계 학습의 힘은 다른 사람을 위해 편의를 만들 수 없다면 큰 의미가 없다. 이것은 데이터 과학에서 중요하지만 종종 간과되는 단계이다. 그것은 프로젝트의 최종 성패를 결정한다. 이것은 또한 데이터 과학과 전통 학술을 구별하는 점이다. < P > 비즈니스 문제를 치밀한 연구 프로젝트로 번역하고 연구 결과를 실제 솔루션으로 번역하려면 업무에 대한 심층적인 이해와 많은 창의력이 필요합니다. < P > 문을 닫고, 알고리즘 조정을 끝없이 하는 데이터 과학팀은 결코 성공하지 못할 것이다. 사실, 때로는 프로젝트가 최종적으로 배달되도록 하기 위해 이렇게 해야 할 때가 있다. 그러나 이것들 중 어느 것도 실제 응용에 투입되지 못한다면 무슨 의미가 있는가? < P > 데이터는 세계에 대한 지식과 데이터 자체 사이에 격차가 있음을 알려 줍니다. 일선 직원들과 좋은 교류 관계를 유지하는 것이 이 격차를 메울 수 있는 유일한 방법이다. < P > 오후 < P > 우리는 소매를 걷어 올리고 기술과 실제 차원에서 문제를 연구했다. 이제 한 걸음 물러서서 전반적인 상황을 생각해 볼 때가 되었다. < P > 우리는 종종 오후에 특정 프로젝트의 목표에 대해 자세히 논의하거나 연구 프로젝트를 제공 가능한 형태로 바꾸는 데 필요한 나머지 단계를 논의합니다.
제품 팀과의 긴밀한 교류는 Dell 의 업무가 조직의 전반적인 비전/목표와 일치하도록 보장합니다. 중요한 문제에 집중하는 것이 중요하다. 우리의 일은 문제를 해결하는 것이기 때문에 반드시 해결책이 통할 수 있도록 보장해야 한다. 내 말은, 실제 업무에서 실행할 수 있다는 것이다. 특정 비즈니스에 따라 솔루션을 제공하는 것은 시작에 불과합니다.
안정적이고 재사용 가능한 도구를 구축해야 합니다. < P > 여기에는 하나의 실험을 더 많은 실용적인 사례로 확대하고 심층적인 제품을 만들 수 있는 솔루션을 구축하는 것도 포함됩니다. < P > 이 섹션은 소프트웨어 개발자와 가장 유사한 부분으로 성능, 안정성 및 확장성을 보장하기 위한 테스트를 고려하고 작성합니다. Umbel 의 소프트웨어 엔지니어링 팀은 거대한 시스템을 구축하는 일을 담당하고 있습니다. 우리는 그들에게 여분의 일을 던져서 그들이 우리를 위해 난장판을 치울 수 있도록 할 수 없습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) < P > 이 실험을 소프트웨어의 기능으로 바꾸는 유일한 방법은 프로젝트 내내 이 목표를 항상 생각하는 것이다. 이것이 연구 단계에 수학만 포함되어서는 안 되는 이유이다. < P > 우리는 우리가 어떤 문제를 해결할 수 있을 뿐만 아니라 현실적인 제한에서 소프트웨어를 구성하여 이 문제를 해결할 수 있다는 것을 알아야 한다. < P > 이 날을 끝낸 < P > 이 모든 것을 겪은 후에는 숨을 크게 들이마시고 자신이 얼마나 멀리 갔는지 볼 필요가 있다. 어떤 날은 다른 날보다 더 멀리 갈 것이다. 대부분의 실험은 실패로 끝났다. < P > 대부분의 솔루션은 최종 전시 전에 연마를 조정해야 합니다. 일반적으로 네가 선택한 노선이 옳다는 것을 보장할 수 있는 것은 거의 없다. 천지개벽의 과정은 시종 불확실성을 동반한다. 하지만 그 과정에서 매일 새로운 것을 배우게 됩니다. 이 날의 끝에서, 우리는 우리가 무엇을 배웠는지 반성하고, 이 세상에 관한 새로운 지식을 내일의 아침 회의에 가져왔다.
충분한 노력을 통해 우리는 결국 특정 질문에 대한 직접적이고 실행 가능한 답을 얻게 되었습니다. < P > 우리는 이 답안에 대해 자신감을 가질 수 있다. 왜냐하면 그것은 데이터에 의해 엄격하게 지탱되기 때문이다. 이때 우리는 여전히 코드 작성을 끝내지 않았다. 앞서 말씀드렸듯이, 데이터 과학 프로젝트의 핵심 부분은 최종 결과를 의미 있고 실용적인 것으로 번역하는 것입니다.
우리는 우리가 배운 것을 다른 배경의 청중에게 효과적으로 전달해야 한다. 결국, 우리는 데이터를 이용하여 이야기를 해야 한다. 다른 부분과 마찬가지로, 이 고리에 대한 유일한 정확한 방법은 없다. 이 부분에서 우리는 도표로 결과를 시각화할 수 있는 방법을 찾거나, 한 평면에서 질문부터 해답에 이르는 모든 부분을 보여주거나, 단지 "좋아, 우리가 해야 할 일은 이렇다" 고 선언하는 것뿐이다. (존 F. 케네디, 공부명언) (알버트 아인슈타인, 시간명언). " < P > 여기서 핵심은 마지막에 모든 사람이 무엇을 해야 하는지, 왜 그렇게 하는지 이해할 수 있다는 것이다.