ROBOTION

[태그:] [hmg 저널] 미래에는 자동차와 대화한다? 현대자동차그룹의 음성인식 기술

  • [HMG 저널] 미래에는 자동차와 대화한다? 현대자동차그룹의 음성인식 기술

    [HMG 저널] 미래에는 자동차와 대화한다? 현대자동차그룹의 음성인식 기술

    [HMG 저널] 미래에는 자동차와 대화한다? 현대자동차그룹의 음성인식 기술

    INNOVATE [HMG 저널] 미래에는 자동차와 대화한다? 현대자동차그룹의 음성인식 기술 HMG저널 2017. 5. 24. 13:46 이웃추가 본문 기타 기능 본문 폰트 크기 조정 본문 폰트 크기 작게 보기 본문 폰트 크기 크게 보기 가 공유하기 URL복사 신고하기 현대자동차그룹의 음성인식 기술의 핵심은 잘 듣고, 잘 이해하는 것입니다 “OO야 음악 틀어줘”, “OO야 영화 추천해줘” 최근 TV에서 이와 비슷한 광고를 자주 접할 수 있습니다. 음성인식을 활용한 기기가 늘고 있기 때문이지요. 실제로 음성인식 기술은 하루가 다르게 진화하고 있습니다. 과거에는 단어 위주로 인식됐지만, 이제는 제법 복잡한 구문과 문장까지 이해하기 시작했습니다. 하지만 여전히 사용자의 말을 못 알아듣거나, 알아들어도 이해하지 못하는 경우가 많아 아직 어색하고 되려 불편하게 느껴질 때도 많습니다. 특히 자동차 안에서의 음성인식은 더욱 까다롭습니다. 무엇보다 ‘안전’을 전제해야 하기 때문입니다. 예컨대 음성을 잘못 인식해 오작동이 일어나기라도 하면 꽤 피곤한 일들이 벌어지기 십상입니다. 그럼에도 불구하고 자동차 음성인식 기술은 운전자의 편의를 극적으로 향상시킬 수 있는 기술입니다. 라디오 볼륨을, 에어컨 바람 세기를 음성으로 조작할 수 있다면 그만큼 우리의 삶은 편해지겠지요. 그렇다면 현대자동차그룹은 자동차라는 까다로운 환경 속에서 이뤄지는 음성인식 기술을 어떻게 해결하고 있을까요?음성인식의 기본 과제, 잘 듣고 제대로 이해하기 예성수 책임 연구원이 스마트 대화 에이전트 기술을 시연하고 있습니다 자동차 음성인식은 운전자가 주행에 집중하면서 주행 외의 다른 기능을 제어하기 위해 개발되었기에 안전과 편의를 동시에 제공해야 합니다. 자동차 음성인식은 인식과 인식 이후 사용자의 선택을 받거나 동작을 수행하는 인터렉션, 두 단계로 이루어집니다. 첫 번째 단계에서는 사용자의 음성을 주변 노이즈와 상관없이 한 번에 정확하게 인식해야 합니다. 두 번째 단계에서는 주행상황과 안전을 고려하여 사용자와의 인터렉션 단계를 최소화해야 합니다. 스마트 에이전트는 인식 이후 단계인 사용자와의 인터렉션 단계를 최소화하기 위한 목적으로 개발되었습니다. 사용자가 음성인식을 이용해서 전화걸기나 목적지 설정 등의 편의기능을 사용할 때, 사용자의 차량 사용 이력을 기반으로 사용자 의도를 추론하여 기존의 2~3 단계의 음성 조작 단계를 한 단계로 즉시 수행하거나, 음성 검색에 따른 수많은 선택지 중 사용자가 필요로 하는 선택지로 축소하여 사용자에게 제안하는 기능들을 제공합니다. 쉬운 일은 아닙니다. 일상에서 느긋하게 스마트폰 음성인식 기능을 사용하는 것과는 달리 운전 중에는 오작동이 자주 발생하기 마련입니다. 예컨대 “안내음 종료 후 명령어를 말씀해주세요”라는 멘트가 끝나기도 전에 말을 시작하는 경우가 대표적인 사례입니다. 이런 경우 보통 오작동이 일어나기 쉽습니다. 사용자의 명령어를 정확히 이해하는 것 역시 어려운 일입니다. 사용자의 자연스러운 발화에도 시스템이 제대로 이해할 수 있으려면 다양한 사용 방식을 연구해야 하는데, 아직은 자동차 환경에서의 음성인식 사용 패턴을 분석할 수 있는 정보가 부족한 편입니다.한 차원 넘어선 음성인식을 연구하는 현대자동차그룹 한 차원 넘어선 음성인식을 연구하는 현대자동차그룹 현대자동차그룹의 ‘Barge-in’ 기술과 ‘지능형 대화 에이전트’ 기술은 자동차 음성인식의 한계를 극복합니다. Barge-in은 인식 단계에서, 지능형 대화 에이전트는 해석 단계에서 자동차 음성인식의 성능과 효율을 높입니다. 현대자동차그룹이 고객 편의를 위해 장고 끝에 개발해낸 이 기술들이 각각의 음성인식 단계에서 어떤 역할을 하는지 살펴보겠습니다.오인식을 줄여주는 Barge-in 기술 스티어링 휠에 있는 음성인식 버튼을 누르면 안내음이 나옵니다 스티어링 휠에 있는 음성인식 버튼을 누르면 “안내음 종료 후 명령어를 말씀해주세요”라는 음성 안내가 나옵니다. 지금까지 음성인식 시스템에서는 오인식을 예방하기 위해 음성 안내가 출력되고 있는 도중에는 마이크 입력이 제한됐습니다. 즉, 안내 멘트가 나오는 도중 사용자가 명령어를 발화하면 인식이 불가능했습니다. 하지만 음성인식 사용에 익숙지 않은 사용자들은 이러한 제약 조건을 알지 못하고, 음성 안내가 끝나기 전에 명령어를 발화하는 실수를 범하곤 합니다. 안내음 종료 후 명령어를 말해달라는 시스템 안내 제공만으로는 근본적인 문제를 해결할 수 없기 때문에 Barge-in 기술이 등장했습니다. 음성인식 Barge-in 기술은 시스템 음성 안내 및 효과음이 출력되고 있는 도중에 사용자가 명령어를 발화하더라도 인식할 수 있도록 하는 기술입니다. 안내 음성이 나오는 도중에도 마이크가 열려있어 음성인식 엔진으로 명령어를 인식할 수 있는 것입니다. 하지만 이때 마이크로 사용자의 목소리가 입력되면서 자동차 스피커에서 나오는 안내 음성도 함께 들어가는데, 이를 에코라고 부릅니다. 기술적으로 에코를 제거해서 사용자의 목소리만 인식하도록 하는 것이 Barge-in 기술의 핵심입니다. Barge-in 기술은 두 단계를 거쳐 발전했습니다. 먼저 1단계에서는 효과음 출력 시점에서 음성인식이 가능하게 하는 Semi Barge-in 기술이며, 이는 2015년부터 이미 북미 양산차에 적용되고 있습니다. 2단계는 음성 안내 구간에서도 명령어를 인식하는 단계입니다. 이 완벽한 Barge-in 기술은 2016년 최초 양산 적용되었고, 2017년 하반기에 단계적으로 국내 양산차에 적용될 계획입니다. Barge-in 기술은 보이스 트리거링(Voice Triggering) 시스템과 함께 연계해 발전이 가능합니다. 보이스 트리거링 시스템은 쉽게 말해 사용자가 말을 건네 음성인식 시스템을 깨우는 것입니다. 애플의 시리를 활성화시킬 때 “Hey Siri”라고 말하는 것을 예로 들 수 있습니다. 하지만 자동차 안 소음, 라디오 소리, 음악 소리 등에 의해 의도하지 않은 상황에서 음성인식 시스템이 스스로 깨어날 우려가 있습니다. 이러한 상황을 예방하기 위해, 자동차 환경에 적합한 보이스 트리거링 시스템을 설계하는 것이 매우 중요합니다. 우선 대용량의 음성명령어 데이터를 확보하여 잡음이 많은 환경에 강한 음향 모델을 만들어야 하고, 에코 제거 기술의 성능을 높여 보이스 트리거링 시스템과 접목하는 방향으로 선행연구를 추진하고 있습니다.고객에게 한 발짝 더 다가서는 편리함, Barge-in 기술 예성수, 윤현진 책임연구원에게 음성인식 기술에 대해 물었습니다 오작동을 줄이는 것이 Barge-in 기술의 최대 관건으로 보입니다. 현재까지 인식률은 대략 몇 %까지 성공하고 있나요? 정상적으로 발화했을 때 음성인식 성공률과 안내 음성이 나오는 도중에 발화했을 때 음성인식 성공률이 동등한 수준이면 시스템이 잘 구현된다고 판단합니다. 마이크로 입력된 에코를 제거하는 에코 제거기를 개발했고, 에코 제거 후 사용자가 발화한 명령어를 검출하는 EPD 모듈도 개발했습니다. 현재는 동등한 수준입니다. Barge-in 기술과 보이스 트리거링 시스템을 통해 어떤 효과를 기대할 수 있나요? Barge-in 기술과 보이스 트리거링 시스템이 지향하는 바는 같습니다. 첫 번째는 사용성 향상입니다. 편하게 음성인식을 실행하고 접근하도록 하는 목적이지요. 두 번째는 운전자의 주의 분산을 방지해 안전운전 효과를 거두는 것입니다. 음성인식은 앞으로 자율주행 차량과 결합해 새로운 대화형 인터페이스를 구성할 것입니다 음성인식 시스템이 운전자의 목소리만을 등록하고, 인식해서 잡음에 구애 받지 않는 시스템은 개발이 가능할까요? 같은 공간에서 여러 사람이 말을 했을 때, 특정 위치에 있는 사람의 목소리만 인식하도록 하는 기술이 있습니다. 시스템이 능동적으로 마이크의 음성입력 방향을 제어해서 특정 위치에 있는 사람의 말만 인식하는 것입니다. 이를 빔 포밍(Beam Forming)이라 합니다. 향후 기술적용을 위해 선행연구를 추진하고 있습니다. 음음성인식이 자율주행 차량과 결합해 극적인 도약이 일어날 수 있다고 봅니다. 음성인식 기술의 최종 목적지는 어디일까요? 자율주행 기술에 관심이 커지면서 자동차 대화 인터페이스의 중요성도 부각되고 있습니다. 사람과 자동차 간에 제약 없는 소통에 대한 니즈가 증대되고 있지요. 음성인식은 사람과 자동차의 의사소통을 매개할 수 있는 가장 중요한 수단이 될 것입니다. 현재 타 브랜드와 비교할 때 현대자동차그룹 기술의 속도는 어떠한가요? 현대자동차그룹 음성인식 사용자의 편의 향상을 위해 매년 신기술을 적용하고 성능개선 활동을 함으로써 타 브랜드 대비 상대 우위를 점하기 위해 노력하고 있지요. 음성인식 기능 관련 고객불만 사항을 수렴하고, 실제 자동차 음향 환경을 분석하고 성능을 최적화하는 연구를 지속적으로 추진하고 있습니다.사용자의 의도를 파악하는 지능형 대화 서비스 이정엄 책임 연구원이 대화형 인터페이스 기술을 시연하고 있습니다 지능형 대화 서비스는 사용자가 어떠한 목적성을 띄고 말하면 그 의도를 파악하고, 그것을 처리하는 시스템입니다. 요컨대 사용자의 일상어를 이해하고, 대화의 상황을 파악해 운전자의 의도와 맥락에 맞는 응답과 서비스를 제공하는 것입니다. 간단하게 말하면 지능형 대화 서비스 기술의 핵심은 말의 의미를 파악하는 것입니다. 저희가 개발하는 시스템은 키워드 중심의 단어가 아닌 문장 형태로 입력을 받습니다. 그 이유는 사용자의 의도는 문장의 동사에 주로 있을 뿐만 아니라, 문장이 사용자의 발화 의미를 파악하는데 많은 실마리를 포함하고 있기 때문입니다. 지금 개발 중인 시스템은 내비게이션 길 안내를 위한 목적지를 설정할 때 “서울역”만 말하기 보다 “서울역으로 가자”라고 말을 해야 내비게이션에서 서울역을 검색해 사용자에게 보여줍니다. 사용자 입장에서는 “서울역”만 말을 해도 나의 의도를 알아내기를 바랄 것이기에 이 부분에 대해서도 고민하고 있습니다. 현대자동차그룹의 지능형 대화 서비스는 궁극적으로 사용자의 음성 명령을 이해해 적절한 응답을 생성하거나 필요한 서비스를 제공하는 가상의 개인비서, 즉 ‘디지털 어시스턴트’를 지향합니다. 이미 구글, 애플, 마이크로소프트, 아마존 등 글로벌 기업이 경쟁적으로 뛰어드는 분야지만, 현대자동차그룹은 특히 자동차를 매개로 얻을 수 있는 데이터베이스를 활용해 운전자에게 편의와 가치를 제공할 계획입니다. 현대자동차그룹은 지능형 대화 서비스를 위한 애플리케이션을 개발하고 있습니다. 자동차 안과 밖에서 사용할 수 있는 모바일용 대화형 인터페이스입니다. 사용자가 자동차 외부에서 “서울역으로 가자”라고 말하면 애플리케이션은 서울역으로 향하는 길 안내를 예약합니다. 이후 자동차에 탑승하면 가로 모드로 전환되고, 길 안내를 시작합니다. 이밖에도 “차 안에서 냄새가 나”라고 말하면 외기순환으로 전환하거나, “창문 열어줘”라고 말하면 자동으로 창문도 열어줍니다. 심지어 에어컨을 작동하는 중에 “에어컨을 켜줘”라고 말하면 “에어컨은 이미 작동 중입니다. 온도를 내려드릴까요?”라고 말하며 온도 조절도 해줍니다. 자동차 안에서의 지능형 대화 서비스는 언어를 이해하는 것도 중요하지만, 주행의 정황과 상황에 대한 이해도 필요합니다. 현대자동차그룹은 앞으로 발화의 의미와 주행 정황을 통합한 시스템을 구현할 계획입니다. 더불어 사용자와 어떻게 대화할 것인지 정의하는 현대자동차그룹만의 ‘대화 전략’을 수립할 것입니다. 현대자동차그룹은 다양한 실사용자 데이터를 수집하고, 이를 지능형 대화 서비스 개발에 적극적으로 활용할 것입니다.지능형 대화 서비스 기술을 말하다 이정엄 책임연구원에게 지능형 대화 서비스 기술에 대해 물었습니다 지능형 대화 서비스 기술 개발은 언제부터 시작하셨나요? 팀 내 선행HMI 파트, 선행UX파트 공동으로 자동차와 운전자의 소통을 주로 연구했습니다. 터치와 제스처 등 다양한 방법론이 있는데, 그 중 음성을 이용해 자동차와 소통하는 법을 연구하기 시작했습니다. 2013년 이전부터 연구를 시작했고, 본격적으로 돌입한 건 2015년 6월부터 입니다. 대화 처리 및 이해를 위한 원천기술을 확보하기 위한 연구개발과 더불어 운전자에게 필요한 도메인에 대한 디자인도 함께 시작했습니다. 음성인식의 오작동을 최소한으로 줄이는 것이 가장 중요할 것 같은데요. 어떻게 해결할 계획인가요? 음성 대화 시스템에서 사용자의 음성 명령을 이해하는 과정은 크게 두 가지로 나누어 볼 수 있습니다. 음성신호를 텍스트로 변환하는 음성인식 과정과 그 텍스트가 갖고 있는 의미를 이해하는 언어이해 과정이지요. 언어이해 과정에서 맥락을 통해 음성인식의 오류를 보정할 수는 있으나, 오류에 대한 확신 없이는 오류를 보정하기가 어렵습니다. 음성인식이 오류없이 잘 되는 것이 무엇보다 중요합니다. 현재 시스템에 적용된 부분을 예로 들어 보면, 사용자가 “서울역으로 가자”라고 했을 때, 시스템은 ‘1번출구’, ‘경부선’ 등 후보군을 제시하며 “몇 번째로 가시겠습니까?”라고 되묻습니다. 이때 사용자가 ‘1번’이라고 말하면 대부분 ‘일본’으로 인식되어 오류가 발생합니다. 이때 대화 진행 상황에 맞게 ‘1번’으로 이해함으로써 적절한 기능을 실행할 수 있습니다. 이런 상황을 미연에 방지하기 위해 사용자로 하여금 “첫 번째”라고 말하도록 유도하고 있습니다. 지능형 대화 서비스 애플리케이션은 언제, 어디서나 고객에게 필요한 서비스를 손쉽게 제공합니다 지능형 대화 서비스를 자율주행과 어떤 방식으로 연계할 수 있을까요? 지능형 대화 서비스는 사용자와 차량 간 연결 고리 역할을 할 수 있습니다. 음성 명령을 통해 자율주행 차량을 차량 안팎에서 제어할 수 있겠고, 자율주행 상태에 대해 알려줄 수도 있을 것입니다. 아마 자율주행 상태를 운전자에게 알려주는 기능이 먼저 가능해질 것입니다. 음성으로 자율주행 기능을 제어할 경우 오인식이 발생했을 때 주행에 지장을 줄 수 있기 때문이지요. 음성으로 정보를 주는 쪽이 우선 먼저 개발될 것입니다.

    원문: 네이버 블로그에서 보기