네이버, 삼성전자, KT, 현대자동차 등으로부터 1,500억 투자받은 스타트업이 있다고? , 음성인식 AI스타트업 'Sound Hound'

human5804 (35)in #soundhound • 7 years ago

이런 스타트업이 있네요.
요즘은 모든 것이 Data로 흔적이 남겨지죠. 음성도 마찬가지입니다. 이 업체는 STM(Speech To Meaning)기술을 개발하여 사용자의 음성을 좀 더 정확하고 신속하게 이해하고, 머신러닝을 통해 학습한다는 것이 특징입니다.
저희 최유리 PD/Analyst가 사운드 하운드의 BM을 간단히 살펴봤습니다. BM의 구성요소를 따라가면서 한번 스윽 살펴볼까요~~~

No Data, No AI!

Soundhound inc(사운드하운드) Intro
SoundHound는 자연어 처리 엔진 또는 음성인식 AI 서비스를 제공하는 스타트업입니다. SoundHound는 *STM(Speech-To-Meaning, 스피치 투 미닝) 기술을 덕분에 사용자의 말을 더 신속하고 정확하게 이해하는 솔루션을 구축할 수 있습니다. 근래에는 네이버(라인 포함), 삼성전자, KT, 현대자동차 등으로 부터 1천500억 원이 넘는 투자를 유치하며 주목을 받았습니다.

STM(Speech-To-Meaning): ‘STM’란 음성 데이터를 텍스트로 변환하는 ‘STT(Speech to Text)’방식과 달리, 음성 인식과 동시에 의미를 분석하는 방식이다

Problem(문제점은 무엇인가?)

사용자 인터페이스에는 다양한 종류가 있는데요, 이젠 터치스크린과 이미지 검색을 넘어서 목소리를 통해 전자기기와 소통하는 음성 명령 방식 주목을 받고 있습니다. (여담이지만 사람은 타이핑으로 분당 40여개의 단어를 입력할 수 있지만, 음성으로는 무려 150여개의 단어를 말할 수 있다고 합니다.)

그러나 음성 명령은 아직 보편적으로 사용되지 못하고 있습니다. 유저가 말한 문장의 의미를 제대로 이해하지 못하거나, 이해하더라도 해석하는 속도가 너무 느려 답답한 경우도 있지요. 가끔은 발음은 같은데 의미가 다른 동음이의어를 구분하지 못해 생뚱맞은 검색 결과를 보여주기도 하고, 새롭게 등장하는 고유어를 해석하지 못하기도 합니다.

Solution(제안하는 해결책은 무엇인가?)

SoundHound는 자연어 처리 엔진 또는 음성인식 AI 서비스를 제공하는 스타트업입니다. 지난 10여 년간 연구개발을 거쳐 음성 AI 분야에서 유의미한 결과를 만들어왔는데요, 그 대표적인 예가 STM(Speech-to-Meaning) 기술입니다. 기존에 사용되던 *STT(Speech-To-Meaning) 방식과 달리, STM 방식은 음성을 인식함과 동시에 대화의 의미를 분석하므로 유저에게 더 신속하고 정확한 결과를 제공할 수 있습니다. 또한 Deep Meaning Understanding 기술 덕분에 한 문장 안에 여러 개의 질문이 들어있어도 거의 발화와 동시에 질문에 대한 결과를 필터링 할 수 있습니다.

STT(Speech-To-Meaning): 사람이 말하는 음성을 컴퓨터가 인식 및 해석하여 이를 텍스트로 변환하는 처리과정을 의미한다

Product(구체적인 제품컨셉은?)

SoundHound의 주력 제품은 크게 3가지 입니다.

첫 번째는 주위에서 들려오는 음악이나 콧노래 소리를 분석하여 음악 정보를 제공하는 어플리케이션 ‘ SoundHound(App)’입니다. SoundHound앱을 실행하고 화면에 떠오르는 주황색 버튼을 터치하면, 주변에서 들려오는 소리를 인식하기 시작하는데요. 몇 초 내에 노래 제목, 가수 이름, 가사, 유튜브 뮤직비디오 등의 정보를 검색해줍니다. 사용자가 원하면 해당 곡의 정보를 북마크해둘 수도 있습니다.

Houndify 'Collective AI'

두 번째는 사용자의 음성 명령을 인식하는 개인 비서 서비스 ‘하운드(Hound)’입니다. Hound앱을 실행하고 "OK Hound"라는 시작어를 말하고 그 다음에 궁금한 것을 물어보면, 불과 몇초 안에 답변(검색 결과)를 제공해줍니다. 음성 인식률이 95%로 높은 수준이며, 단순한 단어가 아닌 복잡한 문장("인천공항에서 가격 20,000원 이하 파스타를 파는 음식점으로 가는 최단루트를 알려줘")도 이해할 수 있습니다.

SoundHound Hands-Free "OK Hound..."

마지막으로 세 번째는, 인터넷이 연결된 모든 장치에 음성 명령 및 대화식 인터페이스를 탑재할 수 있도록 지원하는 개발자 플랫폼 ‘Houndify(하운디파이)’입니다. 개발자는 Houndify를 통해 본인의 제품에 음성 명령 및 검색 기능을 탑재하거나, 여기에 추가로 다른 데이터나 API를 통합할 수 있습니다.
어떤 개발자들은 본인이 구축한 도메인을 유료/무료 형식으로 Houndify에 등록해두는데요, 유료로 등록해둔 경우 다른 개발자가 자신의 도메인을 사용하면 그에 대한 이용료를 받습니다.

도메인(domain): 여기서의 도메인이란, 특정 주제에 대해 완전히 자연스러운 대화형의(natural and fully conversational) 인터페이스를 제공하는 프로그램. 따라서 Houndify 사용자(개발자)는 난해한 암호화 명령이나 기술 문구를 암기하거나 사용할 필요가 없다

Revenue Stream(그래서 어떻게 돈을 벌 것인가?)

현재 SoundHound의 주요 수익모델은 소리 기반 음악 검색 어플리케이션인 'SoundHound(App)입니다.
예를 들어 SoundHound(App)는 유저에게 노래를 추천해주는 서비스를 제공하는데요. 이러한 추천을 통해 고객이 음원을 다운로드하는 경우, SoundHound(App)를 통해 음원을 판매한 고객사에게 수수료를 청구합니다. 또는 사용자가 6.99달러의 비용을 지불하고 광고 노출이 없고 추가 기능을 보유한 SoundHound(App)의 프리미엄 버전으로 업그레이드 하기도 합니다.

Hound App

User(거점시장 내 고객 또는 소비자는?)

‘SoundHound’와 같은 음악 스트리밍 어플을 이용하는 연령층은 1980년대에서 2000년대 초반에 출생한 '밀레니얼(Millennial) 세대'입니다. 밀레니얼 세대는 단일 브랜드를 고집하기 보다는 더 많은 미디어를 통해 다양한 콘텐츠를 소비하려는 욕구가 강합니다. 글로벌 리서치 기업 Nielsen에 의하면,
밀레니얼 세대는 60%가 음악 스트리밍을 위해 2개 이상의 앱을 사용하고 있다고 합니다. (35세 이상 유저의 경우 39%만이 음악 스트리밍 서비스 이용하는 것에 비하면 2배에 가까운 수치입니다.) 더 나아가 밀레니얼 세대 유저들은 정해진 음악 트랙을 그대로 재생하기 보다는, 본인이 원하는 노래를 선택할 확률이 21% 높다고 합니다.

Competitive Advantages(차별적 경쟁력은 무엇인가?)

음성 AI분야에서 뛰어난 기술력을 보유한 SoundHound. 자사 플랫폼인 Houndify에는 2만 여명의 파트너가 등록되어 있습니다. 파트너사들은 Houndify의 플랫폼을 통해 자사의 자체적인 AI전략, 브랜드를 개발하고 이를 소유 또는 관리할 수 있습니다.
이처럼 특정 브랜드나 제품에 국한되지 않고 다양한 파트너사에게 폭넓고 실질적인 기술 요소를 제공하는 독립적인 허브로서의 특성이 Houndify의 특징이라고 볼 수 있습니다.
현재까지 자동차, 스피커, 로봇, 가전제품 등 1,000가지 이상의 제품들이 Houndify를 통해 음성 AI 인터페이스를 탑재하였습니다. 이와 같은 방식으로 자사 제품에 음성 AI 인터페이스 및 음성 명령을 탑재한 업체로는 현대(Hyundai), 휴맥스(HUMAX), 메이필드 로보틱스(Mayfield Robotics), 포토스프링(PhotoSpring) 등이 있습니다.

CEO(창업자는 어떤 백그라운드를 갖고 있는가?)

(Keyvan Mohajer(케이반 모하저) / SoundHound의 설립자이자 CEO)

Mohajer는 SoundHound의 CEO이자 기술 개발 책임자입니다. 그는 스탠포드 대학에서 전기 공학을 공부하는 동안 음성인식 및 자연어 처리를 연구했는데요, 컴퓨터와 대화하는 솔루션을 만들고자 2004년에 SoundHound를 설립했습니다. 그는 비교적 단기간에 완성할 수 있는 비즈니스를 목표로, 2007년에 음악 검색 서비스인 SoundHound(app)를 출시하였습니다. 그리고 SoundHound(app)를 통해 수집되는 데이터를 밑거름으로 삼아, 음성 인식과 자연어 처리를 동시에 할 수 있는 모바일 음성 인터페이스인 Hound를 2016년에 출시할 수 있었습니다.

Investment(최근 투자 실적은?)

SoundHound는 2017년 1월 31일, 시리즈 D라운드에서 7,500만 달러(한화로 약 808억원)의 투자를 유치했습니다. 금번 투자에는 엔비디아 GPU 벤처스(NVIDIA GPU Ventures), 삼성캐털리스트펀드(Samsung Catalyst Fund), 노무라 홀딩스(Nomura Holdings) 등의 전략적인 투자자 그룹이 참여했으며, 투자금은 SoundHound가 보유한 서비스를 해외로 확장하고, Houndify 플랫폼에서 개발자들 간의 집단지성(*SoundHound 자체적으로는 ‘Collective AI’라고 부르는 개념)을 강화하는 데 사용될 것 입니다.

Growth Strategy(향후 성장 마일스톤은?)

AI 기술이 점점 발전함에 따라 음성 기반 인터페이스를 제공하는 서비스가 상용화될 조짐을 보이고 있습니다. 실제로 지난해 4분기 미국 시장에서 음성인식 비서의 판매량이 전년 대비 103% 증가했다고 합니다(출처:Adobe Digital Insights).
이처럼 음성 인터페이스에 대한 수요가 점점 증가하고 있는 시점에서 Houndify를 출시한 SoundHound. 그들은 Houndify 플랫폼에 개발자들을 끌어들이기 위한 방법으로 iOS, Android, Windows, Unix, Java, Raspberry Pi와 같은
다양한 플랫폼 용 소프트웨어 개발 키트(SDK)를 출시할 예정입니다. 더 나아가 2020년까지 Houndify를 통해 연결되는 장치의 수가 250억 개에 달할 정도로 플랫폼을 활성화시키는 것을 목표로 하고 있습니다.

#naver #samsung #kt #hyundai