Как устроен голосовой помощник Алиса от Яндекса?

Когда инженеры компании Яндекс выпустили в свет новый голосовой помощник Алису, то они совсем не ожидали эффекта, который произошел в течение одного года. Новый помощник настолько полюбился людям, что его начали активно устанавливать на используемые устройства.

На сегодняшний момент времени Алиса установлена более чем на 53 млн устройств, как на смартфонах, так и обычных компьютерах. Она помогает не только легче найти в интернете ответы на вопросы, но и с другими делами, например, вызвать такси, проложить маршрут, заказать пиццу. Благодаря искусственному интеллекту с ней можно даже поговорить и поиграть в игры.

Да, недалеко время, когда мы спокойно сможем общаться с собственным электронным помощником, и с его помощью управлять своими делами и имуществом. Добро пожаловать в будущее!

Как же это стало возможным? Как одна программа смогла ближе других приблизиться к уровню человека?
Давайте рассмотрим подробнее как работает Алиса.

Представим себе, что мы задаем помощнику некоторый вопрос, например, «где ближайшая станция метро?»

Первое, что делает программа — это разбор того, что было сказано. Для нас этот процесс кажется простым, но машине необходимо справиться с попутными трудностями, такими как посторонние шумы в звуке, диалект, акцент, сленговые слова. В этом ей помогает технология SpeechKit.

За свою жизнь человек имеет дело примерно с 100 млн фраз, с помощью которых и анализирует то, что ему говорят другие люди. Инженеры Яндекс загрузили в базу знаний (или базу данных, говоря техническим языком) Алисы 1 млрд фраз с разными акцентами и диалектами в разных ситуациях и уровнями шума, благодаря чему точность распознавания речи превысила человеческую уже в середине 2017 года.

После того, как распознаны слова фразы, необходимо распознать смысл этих слов. С помощью технологии Turing фраза проецируется в семантическое пространство высокой размерности. Простыми словами, определяется область, которая наиболее соответствует этому высказыванию.

Чтобы было понятно, представьте, что вы размещаете новый столик в зале. Где будет стоять столик? Вы определяете его положение исходя из нескольких параметров, таких как доступ к нему, освещенность и т.п. Мысленно определив нужно место, вы устанавливаете туда столик.

Тоже самое происходит и с фразой. Программа определяет наилучшее место для нее в базе данных диалогов (их содержится более 100 млн из разных источников: литература, форумы, иные площадки для общения). Только в отличие от столика, где мы выбирали в трехмерном пространстве, выбор производится в 100-мерном пространстве. Звучит мозгоразрывающе, но на деле это просто — посмотрите на трехмерную визуализацию этого процесса.

По мере обучения, фразы, схожие по смыслу, собираются в одной области, а пустышки растворяются в пустоте. Фразы, схожие по смыслу — это например, когда разговор о погоде плавно переходит к разговорам об одежде.

Определив область, Алиса выбирает наиболее подходящий ответ из тех фраз, которые содержатся в этой области. Но не просто случайным образом, а на основе всей имеющейся у нее информации, например, о вашем местоположении, времени суток, интонации голоса и истории прошлых запросов. Вот так, Алиса все помнит, не обижайте ее))

Итак, после того, как найден ответ, необходимо его воспроизвести голосом. Инженеры Яндекс поняли, что простой озвучкой слов задачу не решить — голос был слишком роботизированным, с неправильными расстановками ударений и пауз между словами. Эту задачу призвана решить технология Text-To-Speech.

Для воспроизведения текста используется база из 360 тыс слов и 1 млн фонемов (звуков и их комбинаций), после чего выполняется проход нейросетью, которая сглаживает стыки между словами, трансформирует и изгибает звучание. Таким образом получается наилучшее звучание электронного голоса.

Но вернемся к заданному Алисе вопросу. Теперь вы понимаете, что сначала программа определяет то, что было сказано, а затем выбирает ответ и озвучивает его. В нашем случае ответ будет выбран на основе нашего местоположения и карты метрополитена. Определив ближайшую станцию, Алиса подскажет голосом как до нее добраться.

 

Но это еще не все.

Сейчас мы становимся свидетелями великих технических воплощений, когда электронный помощник не просто помогает нам найти что-либо в Интернете, или приятно провести время, а становится полноценным помощником в бизнесе. Так, например, с помощью Алисы компания по доставке пиццы «Папа Джонс» уже сейчас в автоматическом режиме принимает заказы.

Клиент сам выбирает пиццу, электронный помощник оформляет заказ. Остается только просматривать поступившие заказы и запускать новые в работу, сосредоточив внимание на изготовлении и доставке пиццы.

Компания Яндекс открыла двери всем бизнесам, сделав доступным интеграцию электронного помощника в бизнес-процессы компании. Представьте себе, насколько можно поднять уровень сервиса и автоматизации, от какого количества рутинных действий стало возможным уйти.

Передайте рутинную работу роботам и сосредоточьтесь на важных вещах. Добро пожаловать в будущее!

 

С верой в Вас и Ваш успех,
Денис Зотов
эксперт информационных технологий

Похожие статьи

Оставьте ваш комментарий Необходимые поля отмечены *
ZG - современная digital консалтинговая компания, предоставляющая знания и стратегии малому и среднему бизнесу по систематизации и масштабированию бизнес-проектов в Интернет для генерации прибыли с помощью передовых digital-технологий.