Голосовой помощник научили распознавать голоса. Как это изменит нашу жизнь
Свежий номер
РГ-Неделя
Родина
Тематические приложения
Союз
Свежий номер
Digital
22.10.2022 09:00
Поделиться
Олег Капранов
Голосовой помощник «Алиса» к своему пятому дню рождения научился различать пользователей по голосу. Как утверждают в «Яндексе», это решит одну из главных проблем, существующих сегодня у голосовых помощников, и позволит использовать технологию более широко.
Все рутинные процессы а-ля «включить/выключить технику», которые мы выполняем, например, перед уходом из дома на работу, можно свести к одной фразе и поручить голосовому помощнику. / РИА Новости
Кого должен слушаться пылесос
Голосовой помощник сегодня — это не только забавная колонка, которая умеет включать музыку и сообщать время. Это устройство задумано в качестве центра системы «умный дом» и должно там управлять всеми «умными» устройствами — от освещения и теплых полов до холодильника и пылесоса.
«Умный дом» уже не включит духовку по команде ребенка
И в этом смысле более гибкая коммуникация крайне важна — та же «Алиса», созданная в «Яндексе», до того, как научиться распознавать разные голоса, научилась говорить шепотом и воспринимать его. В результате система гораздо лучше понимает контекст и может запускать различные сценарии в зависимости от него. А различение голосов позволяет персонифицировать результаты, и не важно, касается это воспроизведения музыки или запуска освещения или бытовой техники.
Для примера — взрослый голос может запускать пылесос, а детский — не должен. Важна персонификация и при выдаче результатов поиска, например, в музыке. Раньше голосовой помощник старался учесть вкусы всех членов семьи, смешивая их любимые треки — в итоге им не всегда удавалось слушать только то, что нравится. А если владелец устройства просил Алису запомнить свой голос, остальные уже не могли ставить лайки и добавлять треки в избранное. Теперь любой член семьи может сказать: «Алиса, мне нравится» — и она добавит трек именно в его плейлист. Каждый сможет слушать свою любимую музыку и персональный поток треков.
«Колонка с Алисой — это семейный девайс. С ней общаются мамы и папы, подростки и люди пожилого возраста. У каждого свои музыкальные пристрастия, поэтому так важно, чтобы Алиса узнавала по голосу всех членов семьи», — поясняет Сергей Мельник, руководитель «Алисы» и умных устройств «Яндекса».
Алиса может запомнить до пяти членов семьи, включая владельца устройства. Для этого ему нужно попросить близких скачать приложение «Дом с Алисой» и пригласить их управлять «умным» домом. После этого члены семьи смогут познакомиться с Алисой, чтобы она запомнила их голоса.
Трудности перевода
Речь — один из самых естественных способов коммуникации между людьми, но в силу его гибкости и адаптивности — один из самых сложных для коммуникации с машинами. Мозг человека способен ориентироваться на интонацию, на контекст, на содержание всего разговора в целом, на отсылки к прежним дискуссиям, на крылатые фразы, на сарказм. Он способен восполнять нерасслышанные или неверно услышанные слова и многое другое. Причем это происходит для нас самым естественным образом. Мы ПРОСТО ПОНИМАЕМ, что нам хотели сказать.
С машинами или голосовыми помощниками — не так. Они не слышат речь в нашем понимании этого слова. Сказанные пользователем слова попадают в систему, подключенную через интернет к «облачным» серверам, как звуковой сигнал, в котором гласные и согласные плавно перетекают друг в друга.
Затем нейросеть делит слова на звуковые фрагменты. А затем уже фрагменты — на маленькие частички речи длиной в сотые доли секунды. Это позволяет в дальнейшем обрабатывать эту информацию параллельно, экономя время.
Но распознать речь и превратить ее в текст недостаточно. Нужно понять, какого ответа ждет пользователь. Для этого существует классификатор намерений. Его задача — определить, что человек хотел сказать своей фразой.
Например, если пользователь спросил: «Будет ли завтра холодно», то голосовой помощник должен понять, что речь идет о погоде. Здесь для работы применяют обученные на больших данных представления слов, которые позволяют понять, в каком контексте эти слова обычно используются.
Затем в дело вступает еще один элемент, который поймет, что завтра — это конкретное число, на которое нужен прогноз. Допустим, 25 октября. А еще, чтобы понять, где именно вас интересует погода, помощник возьмет данные из геолокации. Допустим, это город или даже какой-то район этого города.
Это, кстати, ответ на вопрос, зачем многие приложения на смартфоне или компьютере просят доступ к информации, которая, как нам кажется, им в работе совсем не нужна.
Переходим к неформальному общению
А что же делать, если ни один из возможных ответов не подошел к полученному запросу? Тогда включается режим неформального общения.
Именно он обычно кажется самым забавным. Здесь можно даже попытаться поругаться с помощником. У каждого голосового ассистента есть личность: пол, имя, черты характера и стиль речи.
Для ответа на такие вопросы голосовые помощники используют нейросети, обученные на базе текстов из СМИ и кино. И зачастую могут научиться совсем не тому, чего хотели бы разработчики. Иногда помощник может нахамить или отшутиться неполиткорректной шуткой.
Кто включит собаке радио
А теперь вернемся к тому, зачем это все. Если задуматься, то наши действия подчинены рутине. Кому-то это покажется очень грустным, но это действительно так. Мы просыпаемся, идем чистить зубы, включая свет в ванной или гостиной, затем включаем телевизор, закрываем или открываем шторы, включаем чайник, включаем или выключаем кондиционер, включаем или выключаем музыку и многое другое. А когда уходим из дома, то гасим свет, включаем посудомойку, возможно, сделаем чуть послабее нагрев теплых полов или выключим кондиционер, проверяем, выключен ли утюг. Я, например, включаю радио, чтобы собаке не было грустно.
А теперь представьте, что все эти действия можно собрать в сценарий, который будет запускаться фразой «Алиса, мы уходим». Или «Алиса, мы дома». Фантастика? Но это уже работает сегодня.
«Умный дом» еще 5-6 лет назад сводился к нескольким достаточно примитивным датчикам, которые что-то могли очень условно. Допустим, к камере, которая позволяла фиксировать движение дома в ваше отсутствие и могла прислать СМС-сообщение.
Сегодня возможности «умного дома» ограничены лишь той глубиной, на которую вы готовы интегрировать его в свой дом. И все чаще это делается на этапе капитального ремонта, когда датчики и блоки управления ставятся на системы вентиляции, отопления, водоснабжения, пожаротушения, освещения, электроснабжения и канализации. Когда можно выбрать — вешать обычные карнизы или «умные» со специальными моторами, запускаемыми голосом.
И это уже не научная фантастика из фильмов про будущее, а несколько отделов в магазине «все для ремонта». А в центре всего перечисленного — голосовой помощник, который научился распознавать голоса и теперь не включит духовку по команде 5-летнего ребенка.
Кстати
Ай-Да пока не может без подсказок
Фото: REUTERS
Распознавание голоса можно использовать и в проектах, как человекоподобный робот-художник Ай-Да, который выступил в Британской палате лордов. Пока что ораторские таланты робота оставляют желать лучшего: его спутник и изобретатель галерист Эйдан Меллер признался, что вопросы гуманоиду отправил заранее, дабы тот мог как следует подготовиться. В будущем этого можно будет избежать в том числе и с использованием таких разработок, как у «Яндекса».
Российская газета — Неделя — Федеральный выпуск: №237(8885)
Поделиться
yandex-dialogs-sdk — Анализ работоспособности пакетов npm
Все уязвимости безопасности принадлежат производственных зависимостей прямых и косвенных пакеты. Уязвимости 0022 2.3.0
Популярное
- C
- H
- M
- L
- C
- H
- M 90 037
- Л
- В
- М
- Л
- C
- H
- M 90 037
- Л
-
- М
- Л 9 0037
-
- H
- M 90 037
- Л
- В
- М
-
- C
- H
-
M - Л
- В
- М
- Л 9003 6
Ваш проект подвержен уязвимостям?
Сканируйте свои проекты на наличие уязвимостей. Быстро исправить с помощью автоматизированного исправления. Начните работу со Snyk бесплатно.
Начните бесплатноЕженедельные загрузки (16)
Скачать тренд- Звезды GitHub
- 115
- Вилки
- 16
- Авторы
- 7
Популярность прямого использования
Пакет npm yandex-dialogs-sdk получает в общей сложности 16 загрузок в неделю. Таким образом, мы забили Уровень популярности yandex-dialogs-sdk будет ограничен.
На основе статистики проекта из репозитория GitHub для npm пакет yandex-dialogs-sdk мы обнаружили, что он был снялся 115 раз.
Загрузки рассчитываются как скользящие средние за период из последних 12 месяцев, за исключением выходных и известных отсутствующих точек данных.
Частота фиксации
Нет последних коммитов
- Открытые задачи
- 2
- Открытый PR
- 2
- Последняя версия
- 4 года назад
- Последняя фиксация
- 4 года назад
Дальнейший анализ состояния обслуживания yandex-dialogs-sdk на основе каденция выпущенных версий npm, активность репозитория, и другие точки данных определили, что его обслуживание Неактивный.
Важным сигналом обслуживания проекта для yandex-dialogs-sdk является это не видел никаких новых версий, выпущенных для npm в за последние 12 месяцев и может считаться прекращенным проектом или проектом, который получает мало внимания со стороны его сопровождающих.
За последний месяц мы не обнаружили никаких запросов на вытягивание или изменений в статус issue был обнаружен для репозитория GitHub.
- Совместимость с Node.js
- не определен
- Возраст
- 5 лет
- Зависимости
- 5 прямых
- Версии
- 49
- Установочный размер
- 86,9 КБ
- Распределенные теги
- 2
- Количество файлов
- 82
- Обслуживающий персонал
- 1
- Типы TS
- Нет
yandex-dialogs-sdk имеет более одного и по умолчанию последний тег, опубликованный для пакет нпм. Это означает, что для этого могут быть доступны другие теги. пакет, например рядом, чтобы указать будущие выпуски, или стабильный, чтобы указать стабильные релизы.
Рецепт хита IPO Яндекса: Гений, нервы, терпение , и у вас есть рецепт ошеломительного успеха поисковой системы Яндекс, котирующейся на фондовом рынке США.
Листинг Nasdaq оценивает ведущую российскую поисковую систему в 8 миллиардов долларов, что в 500 раз превышает ее стоимость, когда частные инвесторы купили компанию в 2000 году. Илья Сегалович имел выручку всего в 72 000 долларов и потерял 2 миллиона долларов.
Присматриваясь к долгосрочной перспективе, Елена Ивашенцева из фонда прямых инвестиций Baring Vostok Capital Partners собрала группу инвесторов, которая купила 36 процентов акций Яндекса чуть более чем за 5 миллионов долларов.
Переговоры о покупке Яндекса длились семь месяцев, недавно сказала Ивашенцева, вспоминая ужас спонсоров фонда по поводу сделки.
«Было очень сложно объяснить это нашим инвесторам, которые в массовом порядке требовали, чтобы мы избавились от пакета», — рассказала она российскому изданию журнала Forbes.
Это оказался единственный раунд сбора средств, который компания провела до своего первичного публичного предложения (IPO), в ходе которого было выпущено большое количество новых акций. Инвесторы, пришедшие в Яндекс в последние годы, выкупили акции у существующих акционеров.
Яндекс щедро вознаградил своих инвесторов: алгоритм поисковой системы, предназначенный для сканирования Библии, русской классической литературы и патентных текстов, оказался лучше, чем у конкурента Google, соучредитель которого Сергей Брин родился в России.
Домашний сайт компании yandex.ru имеет рыночную долю в 65 процентов в России по сравнению с 22 процентами Google, извлекая выгоду из бума онлайн-рекламы, в результате чего объем продаж в прошлом году составил 445 миллионов долларов, что на 43 процента больше, а прибыль выросла 90 процентов до 135 миллионов долларов.
АЛМАЗЫ В НЕБЕ
Волож — худощавый мужчина с тихими манерами и, с первых дней интернет-бума, с ироничным скептицизмом в отношении миллионов, а затем миллиардов долларов, хлынувших в его отрасль.
«Раньше мы были очень консервативны, пока не начали встречать так много возбужденных людей», — пошутил Волож в 2000 году. нам золотое будущее, бриллианты в небе, если мы сделаем
IPO».
Сергей Белоусов, основатель российских ИТ-компаний Parallels и Acronis, а также венчурного фонда «Руна», похвалил Воложа как отзывчивого, прямого и честного — «возможно, более честного, чем он действительно мог бы позволить себе в беспощадном интернет-бизнесе».
«Он производит впечатление очень уверенного в себе человека, которого нелегко напугать или вывести из себя», — сказал Белоусов агентству Рейтер. «Гугл его не пугает, хотя кажется, что он не спит и не думает об угрозе».
ТЕРПЕНИЕ ПЛАТИТ
Банкиры говорят, что планы по выпуску долгожданных акций были подготовлены еще в 2008 году, но их сорвал мировой финансовый кризис.
Основные инвесторы компании решили переждать крах, и Яндекс, преодолев 8-процентный спад российской экономики в 2009 году, добился в том же году рекордного роста выручки, хотя прибыль сократилась на 17 процентов.
«Инвесторы ждали достаточно долго, и эта стратегия увенчалась успехом. Они не стремились как можно скорее подтолкнуть «Яндекс» к IPO», — говорит Анна Лепетухина, аналитик московской брокерской компании «Тройка Диалог».
«Ходили слухи, что они собираются провести IPO в 2008 году. Потом наступил кризис, и они были готовы ждать. Они получили хорошую отдачу от этих инвестиций».
Для инвесторов история с Яндексом может означать, что инвестиционный климат в России отнюдь не такой враждебный, как многие говорят.
Baring Vostok, которая сохраняет за собой 26-процентную долю в качестве крупнейшего акционера Яндекса, соблюдает несколько золотых правил, чтобы избежать ловушек, в которые попали другие, сказал Рейтер во вторник партнер-основатель Майкл Калви.
Портфель фонда, состоящий из 19 фирм, ориентирован на оказание услуг, он избегает отраслей, в которых он может столкнуться с государственными фирмами, и полагается на долевое финансирование, а не на заемные средства, чтобы защитить свои инвестиции от часто порочного экономического цикла в России.