업계 선두업체의 개방형 혁신, 확장형 데이터 과학, 놀라운 데이터 분석 사례
Sudhir Hasbe
Director of Product Management at Google Cloud
공식 Google Cloud 블로그에서 전하는 데이터 분석 분야의 새로운 소식: 데이터 민주화 방법, 고객의 변화 양상, 새로운 데이터 분석 기능
* 본 아티클의 원문은 2021년 3월 21일 Google Cloud 블로그(영문)에 게재되었습니다.
2월은 일 년 중 가장 짧은 달이지만 Google에서는 확실히 데이터 분석과 관련하여 가장 바쁜 달 중 하나였습니다. Databricks와의 파트너십 발표부터 Dataproc Hub 및 BigQuery BI Engine 출시, Twitter, Verizon MediaVerizon, J.B. Hunt의 놀라운 여정에 이르기까지 2월에는 고객과 파트너, 커뮤니티 전체를 위한 다양하고 유용한 활동이 진행되었습니다.
데이터 분석의 개방형 접근 방식에 대한 Google의 노력
지난 한 달 동안 출시와 관련하여 많은 글이 게시되었습니다. 훌륭한 리뷰와 기사를 모두 열거하기에는 무리이지만 지난주 데이터 분석의 개방형 접근 방식에 대한 Google의 노력과 관련된 내용으로 SiliconAngle에 게시된 Maria Deutscher의 사례를 소개하는 것이 좋을 것 같습니다.
지난주 출시된 BI Engine 및 구체화된 뷰를 다룬 그녀의 게시글에서는 데이터 분석, 특히 BigQuery가 Google의 전체 전략에서 얼마나 중요한 역할을 하는지를 중점적으로 이야기하고 있습니다. 일반 조직에는 수십 개(때로는 수백 개)의 BI 도구가 있습니다. 이러한 도구는 고객이 패키지 소프트웨어와 오픈소스 소프트웨어를 사용하여 빌드한 Google 애플리케이션이거나 파트너 애플리케이션, 커스텀 애플리케이션일 수 있습니다. Google은 다행히도 Microsoft부터 Tableau, Qlik, ThoughtSpot, Superset 등에 이르는 많은 파트너로부터 적극적인 지원을 받고 있습니다.
BI Engine 미리보기 시작하기
Google은 모든 사용자가 이미 알고 있고 즐겨 이용하는 도구를 통해 사용자에게 도달함으로써 모든 사용자를 위한 최고의 분석 환경을 만들기 위해 노력하고 있습니다. 이러한 이유로 최종 사용자의 추가적인 변경 없이도 BI Engine이 BI 도구와 원활하게 연동되도록 했습니다. 또한 고객들이 이 새로운 솔루션을 어떻게 도입하고 있는지 알려드리고자 합니다. 여기서 등록해 '빠르고 새로운 데이터 환경 제공' 웹 세미나에 참여하세요.
데이터 과학을 대규모로 안전하게 실행
데이터 과학을 대규모로 실행하는 것은 많은 조직에서 어려운 과제였습니다. 데이터 과학자는 필요한 도구를 자유롭게 사용할 수 있기를 원하지만 IT 리더는 해당 작업을 관리할 프레임워크를 설정해야 합니다.
Dataproc Hub는 관리되는 프레임워크 내에서 자유롭게 사용할 수 있는 솔루션입니다. 이 새로운 기능을 통해 데이터 과학자는 템플릿화되고 재사용 가능한 구성과 즉시 사용 가능한 빅데이터 프레임워크를 통해 작업을 쉽게 확장할 수 있습니다. 이와 동시에 관리자에게 통합 보안 제어, 자동 확장 정책 설정 기능, 자동 삭제, 시간 제한을 제공하여 권한이 항상 동기화되고 적절한 데이터를 적합한 사람에게 제공할 수 있도록 보장합니다.
Dataproc Hub는 통합성과 개방성을 모두 갖추고 있습니다. 모델 학습, 특성 추출, 사전 처리를 위해 BigQuery 또는 Cloud Storage 데이터를 사용하려는 AI Platform Notebooks 고객은 이 새로운 기능을 통해 큰 이점을 얻을 수 있습니다. 데이터 과학자는 Dataproc Hub를 통해 많은 설정 및 구성 작업 없이 PySpark, Dask와 같은 API를 활용할 수 있을 뿐만 아니라 NVIDIA GPU로 Spark XGBoost 파이프라인을 가속화하여 CPU 대비 14배 절감된 비용으로 44배 더 빠르게 데이터를 처리할 수 있습니다. Dataproc Hub 출시에 대한 자세한 내용은 여기에서 확인할 수 있습니다. AI Platform에서 RAPIDS, Dask, NVIDIA GPU를 사용하는 모델 학습에 대해 자세히 알아보려면 이 블로그부터 살펴보는 것이 좋습니다.
NVIDIA의 데이터 과학 제품 그룹 부문 수석 이사인 스콧 매클렐런이 지난주에 게시한 바와 같이 이제 '대규모 데이터 과학에 보다 쉽게 접근할 수 있도록' 해야 합니다. 이 여정에서 NVIDIA와 파트너로 협력하게 되어 매우 기쁘게 생각합니다.
Dataproc 간략히 알아보기
지난달에 블로그에서 소개한 것처럼 Google의 목표는 모든 사람을 위해 데이터 과학 및 머신러닝에 대한 액세스를 민주화하는 것이며 Google의 데이터 분석 머신러닝 기능을 활용하기 위해 데이터 과학자가 될 필요는 없습니다. 모든 Google Workspace 사용자는 Connected Sheets에서 바로 머신러닝을 사용할 수 있습니다. 시작하려면 블로그 게시물 BigQuery ML을 이용해 Google Sheets에서 머신러닝 모델을 사용하는 방법을 확인하세요.
현재 20억 명이 넘는 사용자가 이용하고 있는 Google의 스프레드시트 애플리케이션인 Google Sheets에서 바로 머신러닝을 활용할 수 있습니다. 그러니 망설이지 말고 대규모 데이터 사용을 시작하여 변화를 이끌어보세요.
협력을 통해 더 나은 미래 건설
지난달에 Verizon Media의 엔지니어링 부문 수석 이사인 니킬 미쉬라가 클라우드를 향한 Verizon Media의 마이그레이션 여정에 대해 작성한 게시글은 특히 영감을 주었습니다. 미쉬라는 문제 식별부터 솔루션 요구사항, BigQuery 및 Google Looker를 선택하는 데 사용되는 전체 PoC에 이르기까지 최종 결정을 내리는 프로세스에 대해 자세히 설명합니다. 규모, 성능, 비용을 현대화 및 최적화하기 위한 실무 가이드를 원한다면 꼭 읽어보기 바랍니다.
고객의 혁신 여정에서는 올바른 클라우드 전략을 채택하는 것이 무엇보다 중요합니다. 직관적인 지침이 필요하다면 또 다른 훌륭한 고객 예시인 Twitter를 살펴볼 수 있습니다. Twitter 플랫폼 리더인 닉 토르노는 Venturebeat와의 인터뷰에서 기업이 Google BigQuery, Dataflow, 머신러닝을 활용하여 Twitter 사용자의 경험을 개선하는 방법을 설명합니다. 이 블로그는 사일로를 허물고 미래 보장형 데이터 분석 환경을 구축하기 위한 안내와 함께 비즈니스 사용 사례를 통해 신속하게 가치를 제공하는 방법을 소개합니다.
또한 Google은 북미 지역 최대 규모의 운송 물류 기업 중 하나이면서 해운업체, 운송업체, 서비스 제공업체의 운송 물류 경험에 디지털 혁신을 적용한 새로운 서비스 개발을 목표로 하는 J.B. Hunt를 지원하고 있습니다.
실시간 데이터는 1조 달러 규모에 이르는 물류 산업의 초석이며 오늘날의 운송업체는 공급망, 설비 가동률, 가격 책정, 운송 수행 전반에 걸쳐 IT 시스템 패치워크에 의존하고 있습니다. J.B. Hunt의 360 플랫폼은 이러한 다양한 시스템의 데이터를 중앙 집중화하여 리소스 낭비, 마찰, 비효율성을 줄이는 것을 목표로 합니다.
또한 Google Cloud가 Ford의 자동차 기술 혁신을 지원하는 방식과 BNY Mellon이 수십억 달러의 일일 결제 실패를 효과적으로 예측하도록 지원하는 모습을 살펴보면서 영감을 얻을 수도 있습니다. 최근에는 미국 국립해양대기청(NOAA)과의 파트너십도 확대하여 그 어느 때보다 광범위한 데이터 공유를 지속적으로 지원하고 더 나은 결과를 도출할 수 있도록 하고 있습니다.
기타 주요 기능
Google Cloud의 목표는 항상 고객이 차별화를 이룰 수 있는 새로운 기능을 지속적으로 개선하고 소개하는 것입니다. 지난달에는 지연 시간을 줄이고 SQL Server 및 MySQL과 같은 트랜잭션 및 운영 데이터베이스에서 BigQuery로 직접 데이터를 실시간으로 복제할 수 있도록 Data Fusion에서 복제 애플리케이션의 퍼블릭 프리뷰를 출시하기로 발표했습니다.
Data Fusion의 간단한 마법사 기반 인터페이스를 통해 일반인 개발자도 손쉽게 복제를 설정할 수 있습니다. 복제를 시작하기 전에 스키마 비호환성, 연결 문제, 누락 기능을 식별할 뿐만 아니라 수정 조치도 제공하는 평가 도구가 함께 제공됩니다. Data Fusion의 복제를 사용하면 처리량, 지연 시간, 복제 작업의 오류를 모니터링하는 실시간 운영 대시보드, BigQuery로 다운타임 없는 스냅샷 복제, CDC 스트림 지원 등 엔드 투 엔드 가시성을 확보할 수 있으므로 사용자는 분석 및 작업을 위해 BigQuery의 최신 데이터에 액세스할 수 있습니다.
Google Cloud Platform에 Cloud Data Fusion이 통합됨에 따라 최고 수준의 엔터프라이즈 보안 및 개인정보 보호가 보장되는 동시에 분석을 위해 데이터 웨어하우스에서 최신 데이터를 사용할 수 있게 되었습니다. 이번 출시에는 고객 관리 암호화 키(CMEK) 및 VPC-SC에 대한 지원이 포함됩니다. Data Fusion을 처음 사용하는 경우 Data Fusion 및 Cloud Composer를 사용한 데이터 레이크 솔루션 아키텍처에 대한 블로그 시리즈 중 1장을 확인하시기 바랍니다.
빠르게 이동하고 끊임없이 변화하는 데이터에 관해서는 Developer Advocate인 포롱 린과 사라 로빈슨의 BigQuery ML을 사용한 지속적인 모델 평가에 대한 최신 권장사항을 확인하는 것이 좋습니다. 이 게시물에서는 BigQuery ML을 사용하여 모델을 생성하는 것부터 ML.EVALUATE를 사용하여 데이터를 평가하고, 저장 프로시져를 생성하여 수신 데이터를 평가하는 과정을 거쳐 저장 프로시져를 사용하여 평가 측정항목을 테이블에 삽입하는 데 이르기까지 모델의 전체 수명 주기를 안내합니다. 이 블로그는 BigQuery 및 Cloud Scheduler로 구축된 통합 플랫폼의 강점과 Cloud Functions 사용부터 데이터 스튜디오의 모델 측정항목 시각화에 이르기까지 달성할 수 있는 작업을 소개합니다. 흥미롭고 유용한 내용도 포함되어 있습니다.
마지막으로 지난달에는 BigQuery, Data Catalog, Pub/Sub, Dataflow를 사용하여 데이터 계보 시스템을 설계하는 방법에 관한 게시물을 통해 데이터 추적 가능성에 대해서도 다뤘습니다. 데이터 계보는 데이터 포렌식을 수행하고 데이터 종속 항목을 식별하며 무엇보다도 비즈니스 데이터를 보호하는 데 중요합니다. Data Catalog는 비즈니스 메타데이터를 Google Cloud 서비스는 물론, 자체 온프레미스 데이터 센터 및 데이터베이스의 데이터와 동기화하고 태그를 지정할 수 있는 강력한 인터페이스를 제공합니다. 이 도움이 되는 글을 읽고 가장 일반적인 사용자 경험에 권장되는 아키텍처에 대한 정보를 얻으시기 바랍니다. 그런 다음 BigQuery Streaming, Pub/Sub, ZetaSQL, Dataflow, Cloud Storage를 사용해 데이터 계보 시스템을 구축하는 것이 좋습니다.
BlackRock이 Data Catalog의 데이터 검색 및 메타데이터 관리를 실제로 어떻게 사용하는지 알아보세요.
지금까지 2월에 진행된 활동에 대해 살펴보았습니다. 또한 3월에 있을 모든 활동도 공유할 수 있기를 기대합니다.