Зборенко, А. А. Применение технологии распознавания речи в бизнесе / А. А. Зборенко. — Текст : непосредственный // Молодой ученый. — 2020. — № 26 (316). — С. 45-47. — URL: https://moluch.ru/archive/316/72055/ (дата обращения: 31.05.2023).
В статье кратко описан процесс развития систем распознавания речи, приведён пример принципа работы одной из таких систем и кратко описаны бизнес-задачи, решаемые с помощью таких систем.
Ключевые слова: клиент, робот, система.
Каждый предприниматель стремится увеличить свой доход и этого можно достичь разными способами, в том числе за счёт автоматизации рутинных процессов. Этому способствует внедрение новых технологий, таких как системы автоматического распознавания речи и её анализа.
Их уже повсеместно внедряют банки, сотовые операторы, различные call-центры и т. д. Когда людям нужна оперативная помощь в решении какого-либо вопроса (банкомат не отдаёт карту, хочется переключиться на новый тариф, узнать по какой причине выключили электричество и когда его снова включат), самым быстрым способом является звонок. За счёт этого компаниям необходимо тратить огромное количество ресурсов на обеспечение технической поддержки. Хотя задачи, решаемые отделом технической поддержки, не являются сложными, они имею большое значение для имиджа и репутации, а от них напрямую зависит доход. Понимание того, как работают эти системы, позволит увидеть больше возможностей для внедрения роботов, распознающих речь.
Как работает распознавание речи
В статье используется понятие «клиент». Под ним подразумевается как лицо, которое уже пользуется услугами организации, так и потенциальный клиент, который не пользуется услугами организации.
Эволюция систем распознавания речи
Первое поколение, Interactive Voice Response (IVR), использовалось (и до сих пор где-то используется) для того, чтобы направить клиента к нужному ему специалисту, используя вопросы в стиле «Если Вы хотите узнать о нашем новом тарифе, нажмите «один», если Вы хотите подключить дополнительные опции, нажмите «два»». В данной нише самыми развитыми считаются системы, которые могут распознать ответы человека: «да» или «нет».
Далее были придуманы роботы, которые доносили какую-либо информацию до клиента. Обычно, для этого использовали синтез речи и голос робота звучал механически. Однако в некоторых случаях используют заранее записанные отдельные слова человека и робот, распознавая написанный текст, просто проигрывал эти слова. Такую систему можно встретить на некоторых сервисах голосовой почты. Голос робота вроде звучит по-человечески, но слова произносятся с большой паузой (около 0,7–1 с. между словами).
Следующей ступенью стало умное распознавание речи. Когда клиент звонит оператору и описывает свою проблему, робот анализирует слова клиента и моментально выдаёт оператору информацию на экране, необходимую для обслуживания клиента [1]. Это позволяет сделать каждого специалиста универсальным, что обеспечивает более комфортный сервис и делает рабочую силу более дешёвой, так как уже нет необходимости нанимать узкопрофильных специалистов.
Эволюция технологий распознавания и синтеза речи для бизнеса: Yandex Speechkit PRO
Последним поколением, нынешним, являются AI-роботы (Artificial Intelligence — искусственный интеллект), которые используют методы машинного обучения и учатся на истории диалогов, пытаясь максимально приблизиться к естественной человеческой речи. Это достигается благодаря технологиям распознавания речи и семантического анализа естественного языка.
Принцип работы AI -роботов
Разберём принцип работы современного AI-робота, взяв за основу систему, предлагаемую международной фирмой Neuro.net Inc для коммерческого использования. [2]
Для того, чтобы система поняла, что от него требуется, процесс распознавания делится на два этапа.
Первый этап — перевод речи в текстовый формат для дальнейшей работы с ним. Для этого часто используются готовые решения вроде Yandex SpeechKit или Google Speech Recognition, считающиеся одними из самых точных. Если требуется обработка речи в реальном времени, то часто используют модель MRCP (Media Resource Control Protocol — протокол управления медиа-ресурсами).
Второй этап — это семантический анализ, т. е. понимание сказанного. Одной из таких технология является NLU (Natural-language understanding — понимание естественного языка). Она ищет объекты распознавания — сущности и намерения. Чтобы понять, что это означает, давайте рассмотрим пример. Допустим, клиент сказал: «Я бы хотел узнать об условиях подробнее, но сейчас я на работе, не могли бы вы перезвонить вечером после 19-ти часов?».
– «После 19-ти часов».
– «Я бы хотел узнать подробнее»;
– «Могли бы вы перезвонить».
Робот на основе объектов распознавания переводит слова человека в понятные для себя значения (например, сущность «time_to_call_back» он установит в значение «19» при условии, что «call_back» равен «true»).
В процессе распознавания голоса может появиться проблема шума: в разговоре голос клиента перемешивается со сторонними звуками и это затрудняет процесс распознавания. Во-первых, следует учитывать тот факт, что человек не говорит без перерыва, он делает смысловые паузы и переводит дыхание. Робота учат делить запись на части, где пауза является концом очередной части.
Это позволяет исключить из анализа лишние данные. Во-вторых, систему обучают определять шум, основываясь на записях этих самых шумов (шум автомобиля, кипение воды, скрип двери, шаги и так далее), то есть по итогу если робот слышит шум, то он знает, что это мусор, который следует отсечь. Это позволяет вести диалог, не зацикливаясь на распознавании стороннего шума.
Бизнес-задачи, решаемые с помощью AI-роботов
- Проведение исследований и опросов . Система может самостоятельно обзвонить клиентов и узнать их мнение по какой-либо теме, основываясь на списке заранее заготовленных вопросов. Задача не является сложной ни для человека, ни для робота, так как часто используются шкалы оценивания, например, от 1 до 10.
- Предложение персональных продуктов . Сервис по работе с клиентами Segment провёл исследование и установил, что около 49 % людей приобретают что-либо, что не собирались покупать, если они получают персональное предложение [3]. Робот может проанализировать действия клиента и, ориентируясь на его предпочтения, подобрать ему наиболее подходящий продукт. Такой анализ используется в связке с технологиями распознавания возраста (чтобы не предлагать услуги и товары несовершеннолетним), определения пола (позволяет обращаться к человеку соответствующим образом) и идентификации личности (на случай, если на звонок ответил кто-то другой).
- Сбор и обработка информации . Если оператор должен получить какую-либо информацию и занести её в базу данных, то с этим отлично справится робот. Если заранее знать о том, какого рода информация должна поступить и какие типовые вопросы может задать клиент, то остаётся лишь настроить систему соответствующим образом. Если же возникнет нестандартная ситуация, то робот сам переведёт звонок на живого оператора.
- Холодные звонки . Холодные звонки часто происходят по одному и тому же сценарию: оператор звонит клиенту, спрашивает, как можно обратиться, и рассказывает об услуге или продукте. Если клиент заинтересован, то оператор продолжает диалог. Часто клиент отказывается от предложения и оператор переходит к следующему. Эту стадию на себя может взять робот, он определит степень заинтересованности клиента и в случае успеха переключит его на живого оператора. Преимуществом такого сценария является скорость и рациональное использование человеческих ресурсов. Робот может отслеживать готовность операторов обработки лидов и если возникает ситуация, когда нет свободного оператора, то система останавливает обзвон.
- Найм сотрудников . Самым долгим этапом в найме новых сотрудников — это первичный отбор кандидатов. При этом он же и самый однообразный. Робот способен сделать рутинный обзвон кандидатов и сообщить им время и место для собеседования, а также ответить на некоторые вопросы, касающиеся будущей работы. При этом система оценивает удовлетворённость кандидата условиями работы. Работа робота не прекращается после найма людей, он способен продолжать отвечать на часто задаваемые вопросы вроде даты получения зарплаты, графика отпусков или порядка начисления премий.
Заключение
Конечно, это не весь список задач, решаемых с помощью систем распознавания речи. Да и область их применения выходит за рамки ведения бизнеса. Однако при внедрении подобных систем необходимо чётко понимать, что именно и как требуется улучшить, иначе вместо выгоды есть большой риск понести крупные потери.
На данный момент существует мало подрядчиков, способных правильно и эффективно внедрить систему и следует тщательно подходить к их выбору. За ошибки программистов будут расплачиваться заказчики.
В будущем отпадёт надобность в работниках call-центра, хотя и случится это не скоро. Опыт индустриальной революции показал, что люди могут тяжело переживать перемены, и не каждый способен идти в ногу с прогрессом. Но не стоит думать, что «машины забирают нашу работу». Исчезновение старых профессий и появление новых — естественный процесс, который длится всю историю человечества.
1. Текст: электронный // voximplant: [сайт]. — URL: https://voximplant.ru/blog/kejs-sberbanka-iskusstvennyj-intellekt-dla-kontakt-centra (дата обращения: 21.06.2020).
2. Текст: электронный // rusbase: [сайт]. — URL: https://rb.ru/opinion/luchshe-zhivyh-operatorov/ (дата обращения: 21.06.2020).
Основные термины (генерируются автоматически): робот, система, клиент, принцип работы, IVR, естественный язык, живой оператор, какая-либо информация, семантический анализ, техническая поддержка.
Источник: moluch.ru
Речевые технологии. Часть 2. Speech-to-Text: как работает распознавание речи
Как распознавание речи использовать в бизнесе
На рынке коллтрекинга зреет революция: мы стоим на пороге внедрения технологии распознавания речи. Недавно она нашла применение в американских сервисах, как скоро тренд придет в Россию, какую выгоду получат владельцы бизнесов, рассказывает Евгений Власов — генеральный директор Calltouch.
История вопроса
Сначала разберемся, что такое распознавание речи. В научной среде так называют процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Антиподом технологии служат говорящие роботы, преобразующие цифровую информацию в речевой сигнал.
Первое устройство распознавания речи появилось в 1952 году, оно понимало произнесенные человеком цифры. В начале 1990 годов были выпущены программы, позволяющие работать с текстом людям с ограниченными возможностями. Но повсеместного распространения технология не получила, потому что распознавание было неточным из-за нескольких проблем:
- произвольный, наивный пользователь;
- спонтанная речь, сопровождаемая аграмматизмами и «речевым мусором»;
- акустические помехи и искажения;
- речевые помехи.
Кроме того, одно и то же слово может звучать по-разному, если человек говорит с акцентом, неправильно ставит ударение, меняет темп и громкость речи. Иногда эти детали влияют на понимание между людьми, не говоря уже компьютерах.
Тем не менее, постепенно программы научились распознавать голос и первым языком, который они поняли, стал английский: он широко распространен, достаточно прост (проще русского и китайского), а потому требует менее сложных математических алгоритмов. Рынок западных IT-технологий быстро рос и благодаря высокой конкуренции вскоре распознавание речи стало широко использоваться в бизнесе.
Разговорный бизнес
В России наибольших успехов добился пока только Яндекс: в 2013 году компания запустила облачную технологию SpeechKitCloud, которая помогает синтезировать и распознавать речь.
Синтез происходит за счет статистического подхода в акустическом моделировании. Проще говоря, программа формирует новый голос, основываясь на интонациях живых людей. Это позволяет придать искусственной речи эмоциональную окраску (добрая, злая, нейтральная) или наделить половыми признаками (мужчина, женщина). На момент написания статьи сервис предлагал бесплатное тестирование в течение месяца, дальнейшая ориентировочная стоимость составляет 5$ за 1000 запросов.
К сожалению, крупные компании пока не спешат использовать эту технологию на полную катушку, но энтузиасты все-таки есть. К примеру, российский разработчик систем автоматизации колл-центров Oktell использует SpeechKitCloud для формирования приветствий и голосового меню, которые слышат звонящие, а также записи ответов на часто задаваемые вопросы. Технология применяется одновременно с работой колл-центра, снижая нагрузку на операторов.
Коллегам из Repka.UA практически удалось заменить людей машинами. Они соединили синтезатор речи SpeechKitCloud и учетную систему интернет-магазина, разработали сценарий подтверждения заказа, в результате появилась робот Кристина, которая автоматически проверяет наличие товара и его цену при поступлении заказа, рассчитывает дату отправки и звонит клиенту для подтверждения.
Если у человека остаются вопросы, звонок переводится на оператора колл-центра. Естественно, сначала процент распознавания речи у Кристины был невысок, в нестандартных ситуациях она не могла заменить человека и подключалась к работе во время пика входящих обращений.
Но, благодаря созданию собственной речевой модели, компании удалось повысить ее точность; и уже сейчас затраты на робота в 5 раз ниже, чем на оператора и в 8 раз ниже, чем на внешний колл-центр.
Еще одна возможность SpeechKitCloud – распознавание речи, позволяет клиентам делать заказ по телефону в автоматическом режиме. На сегодняшний день кроме стандартных ответов («оформить», «доставка», «подтверждаю») технология распознает такие фразы, как «давайте оформим», «не знаю», «сам заберу», «окей». При этом система распознает порядка 82-95% русской речи, в зависимости от исходного звука, качества кодирования, разборчивости и темпа речи, сложности фраз и их длины. Использование технологии, как и в случае с синтезом речи, в первую очередь снижает нагрузку на колл-центр, а в будущем при условии повышения качества, может полностью его заменить.
Недалекое будущее
Сейчас системы используются только для приема и распределения исходящих и входящих звонков. Однако мы в Calltouch уверены, что это не предел и к концу года планируем завершить интеграцию технологии распознавания речи с сервисом коллтрекинга, что позволить вывести оптимизацию рекламных кампаний и бизнес-процессов в целом на новый уровень.
Возьмем для примера историю с распределением звонков. Большинство бизнесменов на сегодняшний день хотят научиться управлять потоком обращений по телефону и разделять тех, кто звонит, с целью совершить покупку, от тех, кого интересует консультация.
Например, магазину игрушек, который дает объявления в Яндекс.Директе, рекламной сети Яндекса (РСЯ) и социальной сети ВКонтакте, интересно, какой источник приносит ему звонки, заканчивающиеся покупками. Предположим, что ВКонтакте приводит, в основном, желающих получить бесплатную консультацию, РСЯ – звонки в сервис, а Яндекс.Директ – продажи. В таком случае стоит перераспределить бюджеты в пользу Яндекс.Директ, максимально сократив при этом затраты на рекламу в соцсети. Но, не зная, как распределяются звонки потенциальных клиентов, сделать это невозможно.
На сегодняшний день существует два метода разделения:
- Автоматический. При звонке срабатывает голосовая система, которая предлагает сделать выбор: кнопка «1» переводит в отдел продаж, кнопка «2» — в сервисный центр. Эта информация поступает в систему коллтрекинга и анализируется.
- Механический. Секретарь компании, понимая, что позвонившего клиента интересует покупка, нажимает цифру «1», если услуги сервиса – цифру «2». Сервис помечает первые звонки как «продажные», вторые как «сервисные» и строит анализ на основе этих данных.
Оба способа зависят от человеческого фактора. В первом случае клиенту неудобно совершать дополнительное действие (нажимать на кнопки), и он повесит трубку, либо нажмет другую цифру. Во втором, секретарь может забыть пометить звонок или «накрутить» результат, если, например, от количества «продажных» звонков зависит его KPI.
С приходом новой технологии человеческий фактор удастся исключить. Если научить систему понимать ключевые слова, которые чаще всего используются в рекламных объявлениях, она сама будет разделять их на группы и помечать звонок как «продажный» или «сервисный».
Также распознавание речи поможет контролировать сотрудников. Например, у владельца компании есть ощущение, что подчиненные не дорабатывают, грубят клиентам или пропускают звонки. Проверить это можно только одним способом – прослушав записи телефонных разговоров. Но на это придется потратить время и деньги, если нанять сотрудника для выполнения задачи.
Тогда как сервис коллтрекинга с распознаванием речи автоматически укажет на существующие проблемы. Для этого в систему загружаются скрипты и шаблоны «правильного» общения с клиентами и определяется, сколько раз сотрудник должен произнести эти слова. Если программа обнаружит их в разговоре, значит, менеджер вел себя корректно. С другой стороны, коллтрекинг поможет выявить агрессивное поведение или неправильное ведение беседы. Естественно, метод не даст стопроцентного результата, но поможет понять качество общения с клиентами.
Проанализировав предоставленную технологией информацию, можно увеличить продажи. Например, программа выявит слова, которые никогда не использовались в рекламных кампаниях, но большинство клиентов произносят их при звонке в магазин. Такие фразы полезно вставить в объявления, это расширит аудиторию контекста и принесет больший эффект, чем обычный текст, сочиненный маркетологами.
Конечно, нужно время для того, чтобы российские коллтрекинг-сервисы научились понимать речь. Но нет сомнений, что пользователи по достоинству оценят возможности, которые откроет технология.
- распознавание речи
- бизнес-процессы
- Блог компании Calltouch
- Управление проектами
- Управление e-commerce
Источник: habr.com