Нейросеть слушает все звонки: как это устроено и как собрать самому
Речевая аналитика звонков на пальцах: как нейросеть слушает все разговоры до единого, а не пять выборочных, как РОП. Две дороги — взять готовое (наш сервис…
Простой вопрос для начала: сколько звонков твоих менеджеров кто-нибудь реально прослушал за прошлый месяц? Не «мы держим качество на контроле», а по-честному, руками: сколько записей открыли и дослушали до конца. У большинства ответ один и тот же, плюс-минус: штук пять. Ну десять. А звонков за месяц было триста. Значит, 290 разговоров, в каждом из которых решалось, придёт клиент или нет, не услышал никто. Они просто канули, и что там говорили твои люди, ты не знаешь.
И сразу для тех, у кого поток поменьше: у тебя не триста звонков, а тридцать? Тем более читай. Когда звонков мало, каждый слитый бьёт вдвое больнее, заменить его нечем. Дальше я для круглого счёта везде говорю «триста», ты просто дели на свой поток, суть от этого не меняется.
Представлюсь: я Эд, отвечаю за маркетинг в OBRAZwill, у нас квесты в Пензе. Звонок для нас главный канал продаж, через него заходит почти половина всех броней, так что цена слитого разговора для меня не абстракция. И долго мы делали ровно то, что описано выше: руководитель выборочно слушал несколько звонков, ловил пару ошибок, проводил планёрку. Остальное жило в темноте. А потом мы сделали так, чтобы все звонки до единого слушала нейросеть. Не вместо человека, а чтобы человек наконец видел всю картину, а не пять случайных кусочков.
Эта статья про то, как такая штука устроена и, главное, как её собрать. Потому что дорог тут две. Первая: взять готовое, у нас под это есть свой сервис, он называется Tonema, к нему вернусь в конце. Вторая: собрать своё вайбкодингом, и я покажу рецепт, по которому это реально повторить, от MVP за вечер до полноценной системы. Сразу предупрежу: собрать рабочий минимум правда можно за вечер, а вот довести до состояния, которому доверяют сами менеджеры, долго. Где проходит эта граница, покажу на своих граблях.
Что такое речевая аналитика звонков
Если убрать умные слова, речевая аналитика это вот что: нейросеть слушает каждый звонок, переводит его в текст и оценивает, что менеджер сделал хорошо, а что слил. На каждый звонок, а не на выборку. РОП физически не может слушать всё: триста звонков по десять минут это пятьдесят часов, целая рабочая неделя только на прослушку, без разборов и выводов. Поэтому он и слушает пять, по верхам, и о качестве работы отдела судит по этим пяти. Нейросеть слушает все триста за ночь и к утру кладёт тебе на стол сводку.
Важно понять, что это не «робот вместо РОПа» и не «искусственный интеллект уволит твоих людей». Это просто инструмент, который снимает с человека нечеловеческую по объёму работу, прослушать всё, и оставляет человеку то, что человек делает лучше: принять решение. Нейросеть говорит «вот на этих десяти звонках менеджер не назвал цену сам», а уже ты решаешь, что с этим делать, дожать скриптом или поговорить лично. Подсказку даёт машина, выводы делаешь ты.
И да, это не только про квесты. Кофейня с доставкой, автосервис, стоматология, агентство, любой бизнес, где продают по телефону, устроен тут одинаково: есть звонки, есть записи, есть менеджеры, которые по-разному берут трубку. Я рассказываю на своём, квестовом примере, потому что в нём живу, но переноси на свой формат смело: у автосервиса всё то же самое, только вместо квеста запись на диагностику.
Что ловит нейросеть и что пропускает РОП
Чтобы это не висело лозунгом, вот конкретно, какие дыры всплывают, когда слушаешь не пять звонков, а все. Это реальные категории, которые мы ловим у себя.
| Что случилось в звонке | РОП, слушает 5 из 300 | Нейросеть, слушает все 300 |
|---|---|---|
| Менеджер слил тёплого клиента: тот хотел, но ушёл «подумать» | поймает, только если случайно попадёт на этот звонок | поймает каждый такой случай за месяц |
| Цену не назвал сам, ждал, пока клиент вытянет | почти никогда не заметит в потоке | видит на каждом звонке, где это было |
| Не предложил то, на чём ты зарабатываешь сверху (у нас это фото, доп. комната, уровень страха) | пара случаев из выборки | считает, на скольких звонках апселл вообще не прозвучал |
| Подобрал клиенту не тот продукт: новичкам хардкор, детям взрослое | ловит редко | ловит системно, видно даже у кого из менеджеров это привычка |
| Не перезвонил по пропущенному, бронь утекла молча | не видит вообще | видит пропущенные и недозвоны как отдельную цифру |
| Кто из менеджеров стабильно лучше, а кто проседает | судит по ощущению | показывает баллом по каждому за период |
Каждая строчка тут это деньги. Слитый тёплый клиент по нашему среднему чеку, это потерянные тысячи на ровном месте. И пока ты слушаешь пять звонков из трёхсот, ты эти потери не то что не чинишь, ты их даже не видишь, списываешь на «слабый месяц».
И не отмахивайся фразой «у меня два менеджера, я и так всё слышу». Не слышишь. На потоке, в запаре, между другими делами, ты ловишь обрывки, а не звонки, и память потом подсовывает удобную версию: кажется, что менеджер продаёт хорошо, а на цифрах вылезает, что как раз он чаще всех отпускает тёплых «подумать».
Как это устроено внутри
Прежде чем собирать, надо понять, из чего эта штука состоит. На удивление, из небольшого числа кусков, и ни один из них больше не магия и не космос.
Слева направо. Запись звонка уже есть почти у всех: если у тебя стоит виртуальная АТС (она же IP-телефония), она пишет каждый разговор, это её штатная функция. Транскрибатор переводит речь в текст, желательно с ролями, чтобы было видно, где реплика менеджера, а где клиента. После этого звонок можно не слушать, а читать, и это само по себе уже половина дела. Дальше сильная языковая модель, та самая нейросеть, читает расшифровку по заданию, которое ты ей написал: что в звонке проверить, что считать ошибкой, что упущенным. На выходе структурированный результат: не сочинение «звонок был неплохой», а конкретные поля, исход, ошибки, балл. И финал, отчёт, который уезжает тебе в мессенджер и на дашборд.
Запомни эту цепочку, дальше мы соберём её по кускам, начиная с самого тупого работающего минимума.
Как собрать самому: MVP за вечер, дальше наслаиваем
Вот ядро статьи. Покажу путь так, как его реально стоит идти: не «сделай мне систему речевой аналитики», от такой задачи захлебнётся и человек, и машина, а маленькими слоями, где каждый следующий добавляется к уже работающему предыдущему. Первый слой можно собрать сегодня вечером, и он уже принесёт пользу. Остальные накручиваются по мере того, как хочется и есть силы.
MVP за вечер: просто прочитай, что говорят менеджеры
Самый первый шаг даже не требует никакого программирования. Заходишь в кабинет своей телефонии, выгружаешь записи звонков за неделю. Прогоняешь их через любой сервис, который переводит речь в текст, их полно. Один совет на старте: бери тот, что размечает реплики по ролям, где менеджер, а где клиент, иначе расшифровка читается сплошной кашей. Складываешь получившиеся расшифровки в один документ. Всё. Дальше садишься и читаешь.
Звучит примитивно, но отрезвляет сильно. Ты впервые видишь не то, как менеджеры рассказывают о своей работе на планёрке, а то, что они говорят клиенту на самом деле. И почти гарантированно ловишь вещи, от которых дёргается глаз: как тёплого клиента отпускают фразой «ну, если надумаете, звоните», как на прямой вопрос про цену мямлят, как не предлагают то, на чём ты теряешь деньги. Это ещё не система и не аналитика, это просто чтение. Но картина мира после первого такого вечера меняется.
Тут многие и останавливаются, потому что инсайта на первый раз хватает с лихвой. Но если хочется, чтобы это работало само и постоянно, дальше идут слои.
Слой 1. Автотранскрипция
Выгружать записи руками каждую неделю быстро надоедает. Первый слой автоматизации, сделать так, чтобы запись сама превращалась в текст. Технически это «возьми новые записи и пропусти через транскрибатор без меня». Уже на этом шаге ты перестаёшь быть звеном в цепочке: тексты копятся сами, тебе остаётся их читать. Мелочь, а экономит то самое, чего всегда не хватает, твоё время и твою дисциплину.
Слой 2. Оценка нейросетью
Читать все расшифровки руками тоже выходит дорого по времени. Поэтому следующий слой, отдать чтение модели. Берёшь транскрипт, скармливаешь сильной языковой модели с простым заданием вроде «оцени этот звонок: продал менеджер или нет, какие ошибки допустил». И получаешь на каждый звонок короткую оценку.
Это переломный момент. До него у тебя была гора текста, которую всё равно надо читать. После него у тебя на каждый звонок есть вывод, сделанный без тебя. Уже можно не открывать сам разговор, а пробежать оценки и нырять только в те, что зацепили. Важно понимать, почему это вообще работает: модель не «понимает» звонок как человек, она очень хорошо умеет читать текст и сопоставлять его с тем, что ты попросил проверить. Чем точнее ты опишешь, что для тебя хороший звонок, тем толковее будет оценка. И тем больнее ошибётся, если опишешь криво, но об этом в граблях. На этом шаге обработка всё ещё ручная, пачками: ты сам раз в неделю запускаешь прогон новых записей. Это нормально, сам запуск автоматизирует следующий слой.
Слой 3. Связка с телефонией
Пока ты всё ещё руками запускаешь обработку. Третий слой убирает и это. У нормальной виртуальной АТС есть вебхук, это когда система сама дёргает твой код в момент, когда звонок закончился, и говорит «вот, звонок завершился, держи запись». Ты ловишь этот сигнал, и дальше всё едет само: запись уезжает в транскрибатор, текст в модель, оценка ложится в базу.
Вот теперь это перестало быть твоей рутиной и стало процессом. Звонок закончился полчаса назад, а его разбор уже готов, и ты к нему пальцем не притронулся. С этого момента система живёт сама на каждом звонке, без твоего участия, и вот тут видно, что вышел не игрушечный скрипт, а рабочий инструмент.
Слой 4. Структурированный результат
Оценка в виде абзаца текста читается приятно, но с ней мало что можно сделать дальше: её не сложить в таблицу, не построить по ней график, не сравнить менеджеров. Поэтому четвёртый слой, попросить модель отдавать не сочинение, а заполненные поля. Исход звонка: бронь, перезвон или слив. Имя менеджера. Список ошибок. Что упустил. Балл. Имя менеджера, кстати, модели выдумывать не надо: оно приходит из телефонии вместе с записью, кто принял звонок, а модель просто привязывает к нему свою оценку. Когда результат разложен по полочкам, его уже можно считать и сравнивать.
Если провалиться в один звонок, видно уже всё в деталях: балл, вердикт, по каким критериям менеджер просел, что конкретно стоило сделать иначе. По сути это готовый разбор, который раньше РОП писал бы руками полчаса, а тут он лежит сразу.
Слой 5. Отчёты в Telegram
Даже когда всё считается само, лазить смотреть результаты владелец не будет, не та привычка. Поэтому пятый слой, относить итог туда, где человек и так сидит весь день, в мессенджер. Каждое утро в чат с руководителями падает короткая сводка за вчера: сколько было звонков, сколько броней, средний балл, на что обратить внимание.
Эта штука простая до смешного, обычное сообщение в чате. Но именно она меняет владельцу утро. Не надо никуда заходить и ничего открывать: ты выпил кофе, глянул в телефон и уже знаешь, как отдел отработал вчера и куда смотреть сегодня. Тот же приём, кстати, мы используем и для финансов, отдельную утреннюю сводку по выручке я разбирал в статье про дашборд, повторяться не буду.
Слой 6. Дашборд
Сводка в мессенджере хороша для «как вчера», но когда хочется копнуть, увидеть динамику за месяц, сравнить менеджеров между собой, отфильтровать только слитые звонки, нужна панель. Шестой слой, дашборд: страница, куда всё стекается и показывается графиками и таблицами.
Самое полезное на дашборде, разрез по менеджерам. Видно не «отдел в целом работает нормально», а кто конкретно тащит, а кто стабильно проседает, по баллу, по доле броней, по доле потерь. И не на ощущениях, а на цифре за период. Это тот самый ответ на вопрос, который без аналитики висит в воздухе: конверсию каждого своего менеджера ты назовёшь навскидку? Тут она просто лежит.
И всё это лежит в кармане: дашборд открывается с телефона так же, как с компьютера, так что глянуть отдел можно из очереди в кофейне.
Только не пойми неправильно: дашборд это не вход, а пункт назначения. На старте он тебе не нужен, на старте нужен MVP из первого раздела, прочитать звонки глазами. Дашборд это то, во что система дорастает, когда оценок столько, что глазами по ним уже не набегаешься. Мы к этому виду шли не за вечер.
Слой 7. Заточка под свой продукт. Вот тут начинается настоящая работа
До этого слоя всё собиралось сравнительно гладко. А вот теперь честно про то место, где гладко заканчивается. Универсальная оценка «продал или нет» это хорошо, но она слепа к твоему бизнесу. Чтобы модель оценивала звонки по-настоящему полезно, она должна знать твой продукт как менеджер: каталог, цены, правила, стоп-слова, чем ты отличаешься от соседей и какими словами это продаёшь.
Покажу на нашем примере, почему без этого никак. У нас есть детские квесты и взрослые хорроры, есть те, что нельзя брать новичкам, есть нестрашные для тех, кто вообще боится. Есть правило: на день рождения менеджер обязан пересчитать цену на одного ребёнка, иначе мама не соберёт деньги с родителей. Есть продукты, которые бронируются только по звонку, и менеджер не имеет права обещать ссылку. Если модель всего этого не знает, она будет штрафовать менеджера за правильное и хвалить за неправильное: похвалит за то, что он отправил новичков на наш самый жёсткий квест, и не заметит, что на детский день рождения не пересчитали цену на ребёнка. То есть будет врать, уверенно и с умным видом.
Так вот: довести задание для модели до состояния, когда она оценивает звонки как твой лучший РОП, это не вечер и не неделя. Это месяцы возни. Ты пишешь правило, прогоняешь на реальных звонках, видишь, где модель промахнулась, правишь, прогоняешь снова. И так по кругу, десятки итераций, пока оценки не начнут совпадать с тем, что сказал бы живой опытный человек. Чтобы это не было блужданием на ощупь, заведи десяток-другой звонков, которые ты сам разобрал и проставил баллы, это твой эталон. После каждой правки задания прогоняешь модель по нему и смотришь, сошлась она с тобой или нет. Без такого эталона ты правишь вслепую и не понимаешь, стало лучше или хуже. У нас это заняло не один месяц, и задание мы до сих пор подтачиваем после каждого изменения в продукте. Вот это и есть длинный хвост, ради честности про который я и пишу эту статью.
Что это поймало у нас
Чтобы не звучало теорией, расскажу, что вылезло на наших живых звонках. За несколько месяцев сервис разобрал у нас не одну сотню разговоров, и закономерности, которые на пяти выборочных звонках не увидишь, всплыли сами.
Самый частый промах оказался не в хамстве и не в незнании продукта, а в цене. Менеджеры слишком часто ждали, пока клиент сам вытянет стоимость, вместо того чтобы назвать её спокойно и уверенно. На отдельном звонке это незаметно, а на сотне это уже система, и с ней можно работать скриптом, а не догадками. Второе: апселлы. На пиковой загрузке, когда звонков много и все в запаре, менеджеры предлагают то, на чём мы зарабатываем сверху, заметно реже. По ощущению этого не поймать, в эйфории от загруженного дня оно теряется, а нейросеть подсветила цифрой: вот на стольких-то звонках допродажа просто не прозвучала. Третье, и это про деньги напрямую: тёплые клиенты, которых отпустили «подумать» без попытки закрыть. Каждый такой звонок это возможная несостоявшаяся бронь, и теперь они не теряются в общей массе, а лежат отдельным списком.
И ещё одна вещь, которую дают расшифровки попутно. Это золото для текстов сайта: люди прямым текстом говорят, что их волнует и какими словами они это называют, какой вопрос задают первым, чего боятся. Эти же слова потом ложатся на лендинг и в скрипт, и сайт начинает отвечать на реальные вопросы, а не на придуманные. Но это отдельная большая тема, тут только помечу, что данные звонков работают не на один контроль качества.
Где не гладко: грабли с моделями и транскрибацией
Если остановиться на предыдущем разделе, выйдет красивая сказка про «собрал и работает». Не работает оно гладко, и я расскажу, на чём набивают шишки, чтобы ты шёл с открытыми глазами, а не разочаровался на второй неделе.
Транскрибатор врёт, и врёт обиднее всего на важном. Речь в текст переводится не идеально, и спотыкается она ровно там, где больнее: на числах и на названиях. Цена «пять тысяч» превращается в «пятнадцать», название твоего квеста, в кашу. А модель оценивает то, что ей дали, и если в тексте ошибка, оценка едет следом. Мы с этим возились всерьёз: точность разных движков мерили руками, на своих реальных звонках, сверяя расшифровку с тем, что было сказано на самом деле. Прогнали около десятка вариантов, и разброс между ними оказался огромным, не «чуть лучше-хуже», а пропасть. Выбрали лучший по нашим живым звонкам, а не по красивым обещаниям на сайте. Мораль: не верь, что «распознавание сейчас уже идеальное», проверяй на своём.
Модель то слишком строга, то слишком добра, и это бьёт по людям. Одна оценивает звонки жёстко, другая всем подряд рисует пятёрки. И это не абстрактная проблема: менеджеры видят свои оценки, и несправедливая оценка демотивирует мгновенно. Если хороший звонок получил низкий балл из-за придирки модели, человек справедливо обижается и перестаёт верить всей системе. Поэтому задание приходится калибровать не только на «поймать ошибку», но и на «не штрафовать за то, что на самом деле нормально».
Менять модель вслепую нельзя, проверено на себе. Вот живой случай. Мы решили поставить другую модель, на бумаге выглядело разумно. Запустили. А она оказалась добренькой и начала всем звонкам подряд лепить под 95 из 100, не отличая блестящий разговор от посредственного. Если бы мы этому поверили, вышло бы, что отдел работает идеально, а на самом деле ничего не поменялось, просто оценщик ослеп. Насторожило ровно то, что баллы вдруг стали подозрительно высокими у всех разом, так не бывает. Поймали мы это и откатились назад часов через десять. Вывод мы оттуда вынесли простой и важный: новую модель нельзя включать на всех сразу. Сначала «канарейка», пускаешь на новую модель маленькую часть звонков, сравниваешь с тем, как оценивала старая, и только если расхождения нет, переключаешь всех. Звучит как перестраховка, но именно она спасает от тихой катастрофы, когда система врёт, а ты этого не видишь.
Я рассказываю это не чтобы отпугнуть. А чтобы было видно: MVP действительно собирается за вечер и сразу полезен, но продакшен, которому доверяют сами менеджеры, это работа вдолгую. Кто это понимает на старте, тот не бросит на третьей неделе, разочаровавшись, что «обещали же просто».
Сколько это стоит и нужен ли тебе программист
Два честных вопроса, которые возникают сразу. Первый, про деньги. Сам прогон звонка через транскрибатор и модель стоит копейки, речь про единицы рублей за звонок. На фоне цены одной потерянной брони это не разговор. Дорого тут не считать звонки, дорого их терять.
Второй вопрос, важнее: нужно ли быть программистом, чтобы это собрать. Отвечу как есть: нет, не нужно. Нужно быть толковым постановщиком задач. Сегодня код пишет ИИ, а твоя работа, внятно объяснить, что ты хочешь, и проверять результат на здравый смысл, как ты проверяешь смету у подрядчика. Я сам не программист, я маркетолог, и про то, как человек без навыков кода собирает рабочие вещи руками, точнее словами, я подробно написал в отдельной статье про наш дашборд. Тут повторю короткий вывод: барьер не в знании языков программирования, барьер в терпении и времени. Машина напишет код, но прогнать через себя десятки итераций и довести до ума придётся тебе.
Собирать самому или нет: трезвый расчёт
Скажу прямо, против обоих своих интересов сразу. Тут всё решает простое: есть ли у тебя на это время и азарт.
Если тебе в кайф разбираться, если хочется своими руками и есть на это вечера, иди и собирай по этому рецепту. MVP за вечер, дальше по слою в неделю, как пойдёт. Это того стоит хотя бы ради навыка, который останется с тобой. Я серьёзно: понимание, как это устроено, дороже самой системы.
А вот если ты предприниматель, у которого и так не хватает времени, трезво посчитай. Собрать минимум, да, вечер. Но довести задание до состояния, когда оценкам доверяют менеджеры, это те самые месяцы итераций из седьмого слоя. Если у тебя этих месяцев нет, может оказаться разумнее не убивать их на стройку, а заняться своим делом, тем, где ты зарабатываешь. Каждый должен заниматься своим.
И сразу сниму страх, чтобы месяцы никого не отпугнули: возня вдолгую нужна, только если ты хочешь продакшен, которому доверяют менеджеры. Если тебе хватает раз в неделю прочитать звонки глазами и поправить отдел, остановись на первом слое и не парься. Это уже больше, чем делают девять владельцев из десяти.
И отдельно для совсем маленькой команды, где отношения важнее любого табло. Не вываливай менеджеру оценки в лоб как приговор. Это инструмент для тебя, чтобы знать, с кем сесть и какой звонок разобрать, а не доска позора и не штраф. Мы свои оценки используем как повод спокойно проговорить разговор на планёрке, а не как наказание, иначе система быстро превращается в то, что люди начинают ненавидеть.
Собрать самому или взять готовое
Подведём. Всё, что я описал, ты действительно можешь собрать сам, рецепт рабочий, инструменты доступны, программистом быть не нужно. Если руки чешутся, иди и делай, и эта статья тебе в помощь.
Но честно и про обратную сторону, ту, что я не стал прятать в середине. Лёгкий тут только MVP. Настоящая работа, седьмой слой, заточка задания под твой продукт, и грабли с моделями и транскрибацией, это месяцы. Мы их прошли, потому что нам это нужно каждый день и мы на этом живём. Если тебе оно нужно, но возиться не хочется, у нас есть готовое решение, тот самый сервис Tonema: ты присылаешь записи звонков, мы возвращаем разбор, без того, чтобы ты собирал всю эту кухню сам. Оно уже заточено и набило все шишки, описанные выше, за тебя. Сколько это стоит, считаем под твой поток звонков, это не пакет с полки; напишешь, назову цифру прямо, без «оставьте заявку».
Без волшебных обещаний: ни самосбор, ни готовый сервис не поднимут тебе выручку сами. Они показывают, что на самом деле происходит в твоих звонках, а решения по-прежнему за тобой. Просто без них ты решаешь вслепую, по пяти случайным разговорам из трёхсот, а с ними, видя все триста. Захочешь обсудить, как это подключить к твоей телефонии, напиши нам в Telegram. Но повторю то, с чего начал: даже если не возьмёшь ничего готового, выгрузи записи за неделю и просто прочитай их сегодня вечером. Это бесплатно и меняет картину мира сильнее всего остального.