• 일상생활 속의 AI노믹스 ③ AI 스피커 | 인공지능 스피커로 느낄 수 있는 7가지 재미

    2020년 04월 제 115호

  • 지난해 개봉한 마블의 역작 <어벤져스4:엔드게임>에서 지구를 구한 후 장렬하게 사망한 아이언맨에게 가장 믿음직한 파트너는 누구였을까? 캡틴아메리카도 토르도 아닌 인공지능 비서 자비스였을 것이다. 기분에 맞는 음악을 틀어주고 건강을 관리해 주는 한편 고차원적인 수학적, 화학적 계산을 해낸다. 스스로 물리적인 인테리어 공사를 진행하기도 한다. 제조업에 사용되는 산업용 로봇의 모습을 하고 있지만 자비스의 실체는 정확도 높은 ‘음성인식 기능’을 탑재한 인공지능 로봇이라고 할 수 있다.

     기사의 0번째 이미지


    대표적인 4차 산업혁명 기술 중 하나인 음성인식 가상비서 기술은 이제 먼 세상의 얘기가 아니다. 가장 먼저 스피커의 모습을 하고 우리 가정의 거실과 부엌, 그리고 침실 안에 찾아왔다.

    몇 년 전 AI 스피커 보급 초기 다소 부족한 음성인식과 데이터 부족으로 스마트폰만큼 직관적이고 편리한 정보를 찾는 데 불편함을 느낀 유저들이 많았다면 최근에는 여러 기능들을 업그레이드하며 스마트폰과의 본격적인 경쟁에 나서고 있다.

    AI 스피커로 할 수 있는 것들은 무엇이 있을까? 기본적으로 미리 약속된 AI 스피커의 이름을 부른 후에는 원하는 음악을 요청할 수 있다. AI 스피커의 킬러서비스는 누가 뭐래도 음악이라고 할 수 있다. 웹이나 앱의 GUI 방식에서는 첫 화면의 최신/인기 음악이 가장 빈도가 높으나 화면이 없는 스피커에서는 메타태그(meta tag)에 의해 만들어진 “신나는 노래 들려줘” 같은 추천서비스가 더 자주 이용된다고 한다. 이외에도 스피커에게는 단순한 질문을 할 수도 있다. 오늘의 뉴스를 읽어달라고 부탁하기도 하고, 외출 전 날씨를 묻거나, ‘맛집 검색’을 대행하게 할 수도 있다.

    자, 여기까지는 AI 스피커를 사용하지 않는 이들도 쉽게 예상가능하고 광고 등을 통해 간접적으로 경험한 기능들이다. 그러나 소위 요즘 신상들은 음악을 비롯하여 초기 스마트폰의 애플리케이션 시장과 같이 다양한 서비스로 확장하고 있다.

    최근 SK텔레콤이 선보인 AI 스피커 ‘누구(NUGU)’ 전용 명상 서비스 ‘누구 마음보기’가 대표적이다.‘누구 마음보기’는 애초에 SK텔레콤 사내 구성원의 행복을 위한 ‘마음 챙김(Mindfulness)’ 프로그램의 일환으로 기획됐으나, 코로나19 상황을 맞아 모든 일반 고객에게 오픈하기로 하고 최근 서비스 개발을 완료했다. 총 41종으로 구성된 명상 콘텐츠에는 아침·저녁 명상 2종, 호흡명상 20종, 자애명상 11종 등으로 구성돼 있다. 누구가 카테고리별 또는 시간별로 5~15분 분량의 명상 콘텐츠를 자동으로 추천해 들려준다.

     기사의 1번째 이미지

    LG유플러스 음성인식 AI 서비스인 ‘U+우리집AI’


    ▶디스플레이 탑재한 AI 스피커

    안면인식에 영상통화 서비스도

    새롭게 탑재된 AI 스피커의 기능을 살펴보기 위해 시장 트렌드를 살필 필요가 있다. 시장조사회사 카날리스에 따르면 2019년 3분기(7~9월) 전 세계에서 출하된 스마트 스피커 대수는 2860만 대로 전년 동기 대비 44.9% 증가했다. 지난해 3분기 기준 업체별 AI 스피커 출하 대수는 아마존이 가장 많은 1040만 대를 판매하며 선두를 지켰다. 2위는 중국 전자상거래업체 알리바바로 390만 대를 기록했고, 3위 바이두(370만 대), 4위 구글(350만 대), 5위 샤오미(340만 대)가 뒤를 이었다.

    점유율로만 보면 아마존과 구글이 선두경쟁을 하는 가운데 중국 업체들의 추격이 가파른 상황이다. 아마존은 지난 1세대를 지나 2세대 AI 스피커 플랫폼을 이끌고 있다. 2세대는 터치스크린을 탑재한 형태로 기존 음성인식만으로 작동하는 한계를 극복하는 형태다.

    특히 아마존의 소형 스마트 디스플레이 에코쇼5(Echo Show5)는 큰 인기를 끌며 기종별 출하 대수 순위에서 1위를 기록했다. 5.5인치 디스플레이를 탑재한 에코쇼5는 별도 앱과 연동할 필요 없이 본체에서 세부 설정이 가능하며 ▲영상통화 ▲AI 음성비서 ▲요리 레시피 등 다양한 기능을 제공한다.

    이미 아마존은 지난 2017년 세계 최초 7인치 AI 스피커를 선보였다. 이를 통해 아마존 쇼핑몰과 동영상 서비스를 이용할 수 있고 영상통화도 가능한 10인치 화면의 ‘에코쇼’를 출시했다.

    구글은 스마트폰 운영체제(OS) 안드로이드를 통해 검색 사이트 구글, 동영상 사이트 유튜브 서비스를 바탕으로 방대한 이용자 데이터를 갖췄다는 강점을 지닌다. 기존 웹과 모바일 기반 플랫폼의 강점을 통해 아마존을 추격하고 있는 것이다. 가장 앞선 음성인식 기능과 다국어 자동번역 기능이 강점이다.

    이외에 구글은 기존 ‘보는 스피커’에 안면인식 기능을 갖춘 보안카메라를 장착한 ‘네스트 허브 맥스’를 공개하기도 했다. 얼굴로 사람을 구분해 맞춤형 정보를 안내하고 외출 시에는 방범 카메라 기능도 한다.

     기사의 2번째 이미지

    KT ‘기가지니’


    ▶키즈·넷플릭스 등 콘텐츠 경쟁

    국내에도 보는 스피커 출시

    지난해부터 국내 업체들도 디스플레이가 탑재된 AI 스피커를 출시하기 시작했다. 특히 화면이 추가되면서 콘텐츠가 핵심 경쟁력으로 부상한 모양새다. KT의 ‘기가지니 테이블TV’ SK텔레콤 ‘누구 네모’ 외에 LG유플러스는 자체 AI 플랫폼은 아니지만 네이버 클로바를 도입한 ‘U+tv 프리’와 ‘U+AI_어벤져스’ 등을 선보인 바 있다.

    이통3사가 화면을 탑재하면서 AI 스피커에 집중한 콘텐츠 차별화 전략은 ‘키즈 분야’에 집약돼 있다. SK텔레콤은 학습 도우미 역할을 강조한 것이 특징이다. 디바이스 내 카메라를 장착해 이를 활용한 인기 어린이 콘텐츠인 핑크퐁 놀이학습, 옥수수 키즈 VoD 등을 즐길 수 있다. KT는 멀티 엔딩 동화 서비스 ‘핑크퐁 이야기 극장’과 ‘기가지니 북클럽’ 서비스를 선보인다. 특히 개인화 음성합성(P-TTS) 기술을 기반으로 기가지니가 부모 목소리로 아이에게 책을 읽어주는 ‘내 목소리 동화’를 선보였다. 이외에 인기 요리 앱 ‘만개의 레시피’도 기가지니에 맞게 최적화해 적용했다.

    LG유플러스는 AI 스피커보다는 IPTV의 연장선상에서 화면 일체형 ‘U+tv 프리’를 지난해 말 출시했다. 전원선과 인터넷선 없이도 쓸 수 있는 세컨드 TV다. IPTV뿐만 아니라 넷플릭스도 연결된다. AI는 네이버의 AI 플랫폼인 클로바를 탑재시켰다.

    아직까지 국내에는 영상통화 단계까지 간 업체는 없다. 단 SK텔레콤은 통화 편의성을 높이기 위해 ‘누구’를 통해 전화번호를 검색하고 통화까지 할 수 있는 ‘누구콜’ 서비스를 내놨다. 스마트폰에 저장된 연락처와 음식점, 병원 등 전국 약 200만 개의 전화번호로 구성된 SK텔레콤 자체 데이터베이스(DB) ‘T114’에 저장된 번호를 음성만으로 검색하고 통화까지 연결할 수 있는 서비스다.

     기사의 3번째 이미지

    삼성전자, AI 스피커 ‘갤럭시홈’


    ▶‘은행 송금하고 난방 낮추고’

    연결성이 AI 스피커의 경쟁력

    컨설팅사 액센츄어(Accenture)에 따르면, AI 스피커 사용자의 2/3가 스마트폰 사용량이 줄었다고 발표했다. 음악뿐만 아니라 정보검색, 온라인 구매에서도 사용량이 감소한 것으로 나타난 것이다. 디스플레이까지 탑재해 업그레이드한 AI 스피커는 과연 스마트폰의 경쟁자가 될 수 있을까? 가능성은 충분하다. 음성으로 명령하면 스마트폰 사용에 비해 다양한 장점들이 발견된다. “우리팀 프로야구 이겼어?” “다음 스케줄 알려줘!” 등 자신만의 서비스를 만들어 정기화할 수 있다. 원하는 명령을 복잡한 검색 단계를 거치지 않고 바로 실행해 얻어낼 수 있는 것이다. 음악 사이트에서 BTS의 원하는 노래를 찾기 위해서는 여러 단계를 거쳐야 하지만 AI 스피커에서는 그 몇 단계를 거치지 않고 “BTS의 ‘아이돌’ 들려줘”라고 하면 된다. 음악을 크게 듣고 싶을 때 손으로 볼륨버튼을 눌러야 했으나, 앉은 자리에서 “볼륨 올려줘” 하면 된다. 즉 손과 눈에 자유를 선사한 채 데이터를 쉽게 찾아볼 수 있다는 점.

    이는 자연스럽게 사람들에게 멀티태스킹을 가능케 한다. 요리할 때 파스타 만드는 법을 물어보거나, 운전할 때 어느 다리가 막히고 있는지 물어볼 수 있다. AI 전문가인 앤드류 응(Andrew Ng) 박사는 음성명령이 텍스트 입력보다 2.8배 이상 빠르다는 연구결과를 발표하기도 했다.

    AI 스피커의 또 다른 강점은 연결성에 있다. 이러한 강점을 바탕으로 스마트홈 연계, B2B 모델 등 새로운 형태의 서비스도 속속 등장하고 있다. 여러 대의 스피커를 연결하는 멀티룸 오디오(Multi-room audio) 기능이 제공되거나, 호텔 객실에 비치되어 음성으로 객실환경을 제어하고 룸서비스나 부족한 물품을 주문할 수 있다. 호텔은 이를 바탕으로 고객 사용패턴을 수집해 서비스 개선에 활용할 수도 있다.

     기사의 4번째 이미지


    가정 내 가전 IoT 기기와 연계를 시도해왔던 스마트홈 플랫폼이 음성인식 기반의 스마트 스피커와 결합하면서 활용도와 사용가치를 높여나가고 있다. 침대 속에서 “불 꺼줘”란 말 한 마디로 간단히 전등을 끄는 경험은 고객의 그동안 보이지 않던 불편함을 해소하게 되었다. 이로 인해 스마트 전등을 만들어 온 필립스휴(Philips HUE) 등의 매출은 더불어 증가하고 있다.

    아예 집을 지을 때 AI 스피커를 내장하는 경우도 있다. 이미 AI 아파트를 표방하며 빌트인 형태의 스마트 스피커를 시공에 반영하는 사례도 있다. AI 스피커를 통해 조명, 가스제어, 냉난방 기기들을 조절하고 사용패턴을 수집하여 빅데이터(Big Data)화하는 방안도 시도되고 있다.

    AI 플랫폼 간 협력 및 연동도 활성화될 예정이다. 아마존 알렉사(Alexa)의 이용자가 “Alexa, Open Cortana”라고 말하면 MS의 AI 플랫폼 코타나(Cortana)를 이용할 수 있고, 반대로 윈도우10 코타나 사용자가 “Cortana, Open Alexa”라고 하면 알렉사를 호출할 수 있다. 과거 PC에서 MS OS와 Mac OS가 스마트폰에서 안드로이드와 iOS가 상호 호환되지 못했지만, 음성UX로의 변화는 기술적 문턱을 낮추어 플랫폼 간의 개방과 협력을 촉진시키고 있다. 앞으로 상호 취약점을 보완하고 고객의 사용성은 증가될 것으로 예상된다. 카카오미니로 LG전자 스마트TV를 제어할 수 있게 된다. 국내에서도 이러한 움직임이 감지된다. 최근 카카오엔터프라이즈는 LG전자와 전략적 파트너십을 체결하고 카카오의 인공지능(AI) 기술을 LG전자 제품에 연동한다고 밝혔다. 카카오엔터프라이즈는 LG전자의 2020년형 올레드, 나노셀, 울트라HD TV 전 모델에 카카오의 스마트 스피커 카카오미니를 연동한다. 카카오미니 음성 명령으로 쉽게 TV를 제어하고 다양한 콘텐츠를 편리하게 즐길 수 있으며, 카카오미니의 다양한 기능을 LG TV에서 이용할 수 있게 된다.

     기사의 5번째 이미지

    SK텔레콤 ‘누구네모’ AI 스피커


    SK텔레콤은 지난해부터 농협은행과 손잡고 음성으로 이용할 수 있는 모바일뱅킹 앱 서비스를 시작했다. 모바일뱅킹 앱 NH올원뱅크에 SK텔레콤의 AI 스피커 누구의 음성인식 기능을 넣었다. 터치 없이 음성만으로 메뉴 검색이나 송금 등이 가능하다.

    KT는 아파트 커뮤니티 모바일 서비스 기업인 아파트너와 손잡고 ‘기가지니 우리아파트’ 서비스를 출시했다. AI 기술을 활용해 아파트 주민들에게 생활편의 기능을 제공한다. AI 스피커 기능이 있는 TV를 활용해 음성으로 조명과 온도 등을 제어하고 독서실 헬스장 등 커뮤니티 시설을 예약할 수 있다. 방문 예정 차량 등록, 아파트 관리비 검색 등도 가능하다. 제휴를 통해 AI 스피커의 기능을 추가하는 것은 통신사들이 꾸준히 활용하고 있는 전략이다. KT는 노보텔 등 호텔 체인에 ‘기가지니 호텔’을 구축하고 있다. 현대중공업그룹과는 5G로봇과 스마트 팩토리 분야에 협력하면서 음성으로 조작하는 협동로봇을 개발하고 있다. SK텔레콤 역시 내비게이션 앱 T맵 등에 자사 AI 스피커 누구를 적용했다.

    궁극적으로 음성인식을 적용한 AI 스피커 기술은 검색 서비스에 있어 텍스트 중심의 검색에서 음성인식, 이미지 인식, 동영상 인식 등 다양한 검색 분야로 영역이 확대되고 있다는 점을 방증한다. 구글은 지난 2016년 모바일 검색의 20%가 음성 검색이라고 밝혔으며, 2020년에는 전체 검색의 약 50%가 음성으로 이뤄질 것으로 전망한 바 있다.

    [박지훈 기자]

    [본 기사는 매경LUXMEN 제115호 (2020년 4월) 기사입니다]
    [ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
매일경제
맨위로