소리 없는 세상의 자막: 어느 CEO의 이야기
Dominic Smith
Content Lead, Google Workspace
* 본 아티클의 원문은 2023년 5월 26일 Google Cloud 블로그(영문)에 게재되었습니다.
데이비드 콘은 사람과 조직을 연결하는 일을 해왔습니다. 종합 서비스 마케팅 및 커뮤니케이션 대행사 Civic Entertainment Group의 설립자이자 공동 CEO인 콘은 Airbnb, Meta, Shopify, Ford, CNN, McDonald’s, NBC, Verizon 등 여러 브랜드가 조직의 목적과 서비스를 제공하는 커뮤니티 간 연결 고리를 구축할 수 있도록 지원했습니다. 최근 몇 년 동안 Civic은 집을 공유한다는 Airbnb의 새로운 아이디어를 보편화하고 주류 문화로 올라서도록 도왔으며 슈퍼볼에서 Verizon의 5G 가치 제안을 선보였습니다.
특히 데이비드는 새로운 기술을 활용해 브랜드가 중요한 접근성 전략을 수립하고 활성화도록 지원하는 일에 흥미를 느낍니다. 맹인을 안내하는 눈(Guiding Eyes for the Blind)이라는 비영리 단체가 Google과 협력하여 시각장애인이 다른 사람이나 안내견의 도움 없이도 달릴 수 있도록 도와주는 새로운 기술을 개발하자 Civic은 뉴욕 마라톤 프로그램을 조직한 팀을 이끌어 GMA, Forbes, Reuters 등 주요 매체를 통한 보도를 성사시켰습니다.
하지만 데이비드에게 개인적으로 가장 큰 영향을 준 기술 사용 사례에 관해 묻는다면 Google Meet 영상 통화에 제공되는 단순하지만 강력한 자막(cc) 기능이라고 답할 것입니다. 데이비드는 지난 몇 년간 수백 명의 기업 경영진을 만나 피칭하고 교류했지만 상대방의 목소리를 들어본 적은 없습니다. 유아기에 척수막염을 앓아 청각장애인이 되면서 소리가 전혀 들리지 않는 세상을 살아가고 있기 때문입니다. Meet의 실시간 자막 기능을 사용하면 사람들이 컴패니언 모드를 통해 같은 회의실에 있든 전 세계에서 회의에 접속해 동영상을 통해 만나든 관계없이 회의에서 논의되는 모든 내용을 이해할 수 있습니다.
“자막 기능이 가장 절실했던 팬데믹 기간에 Meet의 자막 품질이 믿을 수 없는 속도로 개선되는 과정을 실시간으로 지켜봤고, 지금은 자막 없는 업무 환경은 상상할 수 없을 정도입니다.”라고 데이비드는 말했습니다.
Google Meet는 2019년에 자막 기능을 처음 도입한 이후 최신 AI 기술을 통해 지속적으로 업데이트하고 있습니다. Google 전반에서 Meet 같은 제품의 자동 음성 인식(ASR) 기능에 주력하는 그룹 제품 관리자 롭 맥그로티는 다음과 같이 말했습니다. "음성 인식 기술은 Google 연구팀에서 만든 최신 머신러닝 모델을 도입하면서 끊임없이 진화하고 발전하고 있습니다. Meet 자막의 경우 머신러닝 모델이 영상 통화에서 원시 오디오를 가져와 발음되는 단어를 유추해 대화를 텍스트로 변환하여 화면에 실시간으로 자막을 표시합니다. 2020년 5월에 진행된 업데이트는 Meet 사용자에게 더 현저하게 의미있는 영향을 미쳤으며, 데이비드의 경험을 크게 개선했다는 소식을 듣게 되어 무척 기쁩니다."
또한 이 기간에 Google Meet는 모든 회의 참석자에게 보다 선명한 오디오를 전달할 수 있도록 AI 기능 향상을 기반으로 오디오 품질을 높이고 배경 소음도 줄였습니다.
펜실베이니아 대학교를 졸업한 데이비드는 "대학생 시절에 이런 기술이 있었다면 얼마나 유용했을까 상상하곤 합니다."라고 말했습니다. "당시에는 '숙제에 이어 또 다른 숙제'를 해내고 '요령에 이어 또 다른 요령'을 찾아야 했습니다. 교수님의 강의를 듣지 못해서 학습 과제를 준비하기 어려웠기 때문에 정보를 검색하고, 교과서를 암기하고, 관심사보다는 정보 접근성에 따라 과목을 선택하고, (지금은 Google Docs가 있으니 더 이상 문제가 되지 않겠지만) 다른 학생들의 노트를 빌리는 등 각종 노력을 기울이느라 많은 시간을 쏟아야 했습니다."
데이비드는 미국식수화를 배운 적이 없으며 늘 시각적 신호와 입모양을 읽는 데 의존하며 세상을 살아왔습니다. "팬데믹이 덮치고 사람들이 마스크를 쓰기 시작했던 때가 가장 끔찍한 악몽이었습니다."라고 데이비드는 말했습니다. "저는 시각적 신호에서 모든 정보를 얻으며 그동안 사람들의 표정을 읽으면서 모든 의사소통을 했기 때문에 사람들로부터 단절된 느낌을 많이 받았습니다." 데이비드는 낯선 사람들에게 목소리를 '들을' 수 있도록 마스크를 내려달라고 매번 요청해야 했습니다. 식료품점 점원, 매장 판매원, Uber 기사, Starbucks 바리스타, 식당 종업원, 심지어 낯선 사람들이 그가 있는 방향을 바라보면 '지금 내게 말하고 있는 건가?'라는 생각이 들었습니다. 결국 그는 앞면에 "저는 청각장애인이고 입모양을 읽습니다", 뒷면에는 "친절하게 대해 주세요"라고 적힌 티셔츠를 입고 다녔습니다.
Google은 데이비드 같은 사용자를 고려해 자막 기능에 계속 투자하고 있습니다. 이미 Android 휴대전화용 음성 자막 변환 및 Pixel 기기의 녹음기는 Google Meet와 기본적으로 동일한 자동 음성 인식 기술을 사용해 오디오를 마이크에서 화면 텍스트로 변환할 수 있지만, 기기에서 로컬로 실행되므로 개인 정보 보호와 휴대성을 극대화할 수 있습니다. 또한 Meet는 모바일 앱에 컴패니언 모드를 출시할 예정이며, 데이비드가 어디에 있든 강력한 자막 기능을 사용할 수 있도록 지원하게 될 것입니다.
“제가 가진 장애는 눈에 보이지 않기 때문에 사람들은 제가 어떤 어려움을 겪는지 알지 못합니다."라고 데이비드는 말했습니다. "청각장애인을 돕는 리소스가 증가하고 있어 다행이지만, 10년 전에 이런 팬데믹이 닥쳤다면 헤쳐 나가기가 훨씬 어려웠을 것입니다. 기술이 발전한 덕분에 개인적인 생활과 업무가 이전과는 비교할 수 없을 정도로 수월해졌습니다.”
BBC Storyworks와 협력하여 제작한 이 YouTube 동영상에서 자막이 어떻게 연결 고리 역할을 하는지 자세히 알아보세요. 난청이 있는 Google 직원인 KR 리우와 로라 다퀼라가 일상 생활에서 음성 자막 변환 및 Google 자막과 같이 유용한 Google 도구를 구축하고 사용하는 방법을 담은 비하인드 스토리를 확인해 보세요.