본문 바로가기

기술&정보

Voice User Interface: UI의 과거와 현재

반응형

UI의 역사: CLI, GUI, VUI
UI(User Interface)는 인간과 컴퓨터가 상호작용하기 위한 매개체를 말하며, 컴퓨터의 사용성을 극대화하는 방향으로 디자인되어 왔다.

텍스트 사용자 인터페이스
텍스트 사용자 인터페이스는 배치 파일, 명령어 등을 이용하여 컴퓨터와 상호작용하는 인터페이스를 말한다. 배치 인터페이스(Batch Interface)는 명령어를 파일에 저장하고, 파일이 실행되면서 전체 명령을 실행하는 인터페이스이다. CLI(Command Line Interface)는 배치 인터페이스가 발전한 형태의 인터페이스로, 텍스트 터미널이 라인 단위로 사용자 입력을 받아 결과를 출력한다. 배치 인터페이스와는 달리 실시간으로 컴퓨터와 상호작용하는 장점이 있었으며, 마찬가지로 이를 위한 명령어를 익혀야 했다. 텍스트 사용자 인터페이스는 각 기능에 대응되는 명령어를 익혀야 하므로 학습 속도가 더디며, 이는 텍스트 사용자 인터페이스의 목표가 컴퓨팅 자원의 효율성이었기 때문이다. 컴퓨터의 사용성은 부수적인 요소였다. 현재에도 배치 인터페이스와 CLI는 프로그래머 등 고급 사용자가 특수한 목적을 위해 사용한다.

그래픽 사용자 인터페이스
그래픽 사용자 인터페이스는 명령어를 아이콘, 버튼, 텍스트 입력란 등으로 대체하여 컴퓨터를 사용할 수 있게 만들었다. 그래픽 사용자 인터페이스는 2차원 좌표상 표현된 그래픽을 직접 조작하여 컴퓨터와 상호작용할 수 있으며, 텍스트 사용자 인터페이스와 비교해 직관적인 조작이 가능하다. 다만, 명령어를 직접 입력하는 CLI보다 느리다는 단점이 있으며, 복잡한 기능의 반복 처리가 어렵다. 그래픽 사용자 인터페이스는 운영체제가 제공하기 때문에 실행 프로그램이 변경되어도 선택, 이동, 복사 등의 조작법이 일관적이다.

음성 사용자 인터페이스
2000년대 초, IVR(Interactive Voice Response) 시스템이 보급되었다. 고객 관리, 상담 분야에 자동 응답 시스템을 위해 사용되었으며, 상담사를 대신하여 예약 번호를 확인하거나 신용 결제하는 등의 기능을 수행하였다. IVR의 단점은 모든 메시지가 음성으로 전달된다는 점이다. 이는 음성이 길어지거나 선택지가 다양하게 주어질 경우 문제가 된다. 또한, IVR은 고객 상담사보다 속도가 느리고, 수행하지 못하는 기능이 존재한다.

이를 해결하는 방법이 음성 사용자 인터페이스(VUI, Voice User Interface)이다. VUI는 음성을 텍스트로 인식하고, 다시 텍스트를 분석해서 지정된 기능을 수행한다. 어조, 말투, 사투리, 어순, 어법 등 입력의 다양성 때문에 저조한 인식률을 보였던 과거와 달리, VUI는 최근 몇 년간 진보한 자연어 처리 기술과 함께 폭발적으로 성장하였다. 또한 스마트폰의 등장으로 모바일 기기 사용 환경이 달라지면서 음성 입력에 대한 결과를 시각적으로 출력하는 것 또한 가능하다. IVR이 가진 단점을 어느 정도 극복한 것이다.

 

UI의 과거와 현재: GUI와 VUI의 특징 비교
UI가 지향하는 궁극적인 목표는 NUI(Natural User Interface)라고 한다. 물리적인 매체와 상호작용하듯, 거부감 없이, 자연스럽게, 추가적인 학습 비용 없이 컴퓨터와 상호작용하는 것이다. 이러한 점에서 VUI는 GUI보다 한발 앞섰다. GUI에서 그래픽은 하나의 심볼과도 같다. 해당 그래픽을 처음으로 접한 사용자는 학습이 필요하고, 애플리케이션에 따른 맥락이 필요하다는 의미이다. 예를 들어, 시계 방향으로 회전하는 화살표 모양 버튼은 웹 브라우저에선 새로 고침을 의미한다. 포토샵과 같은 그래픽 프로그램에서는 회전 기능을 의미한다. CLI보다는 작지만, 학습 비용이 있다는 의미이다.

VUI는 사용자가 다른 사람에게 지시하듯 기능을 수행하는 게 가능하다. 컴퓨터는 대화에서 맥락을 습득해 상황에 대응되는 상호작용을 할 수 있다. 즉, VUI는 학습 비용이 없다. 물론 이는 이상적인 VUI의 경우이며, 현재의 VUI는 넘어야 할 산이 많다. 현재 VUI는 프로그램의 모든 기능에 연결되어 있지 않다. 일부 지정된 기능을 실행할 뿐이다. 시중에 나와있는 앱은 가지각색이며, VUI를 제공하는 인공지능 비서의 종류도 다양하기 때문에 GUI 없이 음성만으로 원하는 앱의 특정 기능을 실행하기는 불가능에 가깝다.

있는 기능을 활용하는 데에서도 문제가 생긴다. 정의된 기능을 시각적으로 보여주기 힘들기 때문에 시도해봐야 하며, 학습 비용이 필요하다. 기능이 추상적이기 때문에 학습 이후에도 쉽게 익숙해지지 않는다는 점도 큰 약점이다. 지금의 VUI는 직관적이나 일관성이 없고, 효율이 떨어진다.

 

VUI 사례: 스마트 스피커, AI 어시스턴트
GUI보다 VUI가 강점을 가지는 부분은 레시피, 백과사전 등 간단한 검색이나 음악 재생, 주변 기기의 제어 및 루틴화이다. 스마트 스피커를 통해 VUI를 적극적으로 활용하는 사례를 생각해보자.

  • 아침에 알람이 울린다. "일어났어" 스피커가 오늘의 일정, 날씨, 뉴스를 브리핑한다.
  • "회사 가자" 차에 타자마자 내비게이션 목적지를 설정한다. 신나는 댄스 테마 음악을 듣다, 친구 생일인 게 생각나 바로 전화를 건다.
  • 집 근처 10km 안에 도착하면 스마트 창문이 닫히고 보일러가 켜진다. 집에 들어오면 스마트 플러그에 전원이 들어온다.
  • 저녁 준비를 위해 재료를 손질하는 동안 레시피를 차례대로 읊어준다.

VUI 시나리오를 살펴보면, VUI는 사용자가 다른 일에 집중해야 할 때, 혹은 일상적으로 해야 하는 일을 처리할 때 빛을 발한다. 따라서 스마트 스피커, AI 어시스턴트 플랫폼을 제공하는 구글, 네이버, 카카오의 입장에서는 자사 검색 플랫폼을 VUI에 적합하도록 업데이트하는 한편, VUI를 지원하는 IoT 기기를 늘릴 방법을 모색하여야 한다.

VUI 부작용: 제조회사의 부담, 프라이버시 침해, 해킹 및 보안 취약점
제조회사의 부담
다만, 제조회사 입장에서는 선뜻 VUI를 지원하기에 부담이 있다. 제품으로 얻을 수 있는 수익은 최초 한 번인 데 비해 서비스를 유지하기 위한 고정비가 발생하기 때문이다. 이를 보여주는 사례가 국내 스마트 플러그 제조회사 HK네트웍스이다. 최근 HK네트웍스가 서비스하는 스마트 플러그의 서버에 이상이 생겨 클라우드 방식으로 동작하는 제품 전체가 오작동하기 시작했다. 플랫폼이 음성 서비스만 제공하고 제조 회사의 부담을 직접 지원하지 않는다면 이러한 사례는 계속 나타날 것이다.

프라이버시 침해
또한, 스마트 스피커는 사용자의 요청에 바로 반응하기 위해 음성을 수집하여야 하며, 이 과정에서 프라이버시 침해가 일어난다. 2019년 페이스북은 사용자가 AI와 나눈 대화를 녹음하여 사람이 듣고 문자로 바꾸는 작업을 진행했다. 자연어 처리 서비스 개선 목적으로 진행된 작업이었으나 사생활 침해 문제가 폭로되자 이미 음성 녹취를 중단했다고 발표했다. 페이스북의 폭로 이후 다른 기업들도 개선책을 내어놓고 있다. 구글은 수집된 데이터를 사용자가 확인, 삭제할 수 있도록 했고, 아마존은 데이터 수집을 차단하는 기능을 추가했다. 표면적으로는 사용자의 의도를 존중하지만, 여전히 음성 녹취에 대한 권한이 기업에 있는 만큼, 직업윤리와 법적 기준이 정립되어야 한다.

해킹 및 보안 취약점
스마트 스피커가 계속해서 IoT 기기와 연결됨에 따라 새로운 형태의 해킹이 등장하기도 한다. 음성을 레이저 신호로 바꿔 원거리에서 신용카드 결제를 시도한다거나, 광고 멘트에 구동 명령을 삽입하여 오작동을 유발하는 경우가 그 예이다.
충분한 대비 없이 산업이 고도성장하게 될 경우 더욱 심각한 보안 이슈가 발생할 수 있으며, 스마트 스피커가 생활에 밀접한 데이터를 다루기 때문에 플랫폼은 이러한 문제에 대해 더욱 조심스러워야 한다.

참고

  • Ash Hopkins. "An Abridged History of UI" Medium Blog, Feb 3, 2017. blog.prototypr.io/an-abridged-history-of-ui-7a1d6ce4a324
  • John Strang. "Programming with curses" O'Reilly, Oct 18, 2007.
  • Avi, Peter, Greg Gagne. "Operating System Concepts, 10th Edition" John Wiley & Sons, Apr 15, 2018.
  • Cathy Pearl, "Designing Voice User Interfaces" O'Reilly, Dec 2016.
  • 김지현, "인공지능과 인간의 대화" 미래의 창, Jun 8, 2020.
반응형