Речь в текст: почему “Я сам!” не работает с расшифровкой записей?

Наша сегодняшняя статья посвящена тем, кто спрашивает: “Зачем платить специалистам, если я и сам печатать умею?”.

В целом, вопрос закономерный, справедливый и самостоятельно решаемый, а вот какой ценой и что для этого нужно расскажем в статье.

Давайте сразу определимся с несколькими вещами, которые нужно понимать перед самостоятельной расшифровкой:

На данный момент не существует такой программы, в которую Вы загружаете аудио файл и получаете на выходе готовый (и адекватный) текст.

Печатать долго. Для тех, кто любит цифры – чтобы расшифровать ОДИН час записи, потратить нужно ДЕСЯТЬ.

Выход все же есть, даже два.

Способ номер раз.

Если Вы обладаете хорошей скоростью печати, то включите аудио дорожку и записывайте все, что слышите. Обычно, чтобы записать одно длинное предложение следует послушать его дважды. Не забывайте ставить на паузы, иначе, пока Вы будете печатать одно предложение запись уйдет далеко вперед и Вам придется отматывать ее назад.

Если печатаете Вы не как заправская машинистка, то рекомендуем воспользоваться программами, замедляющими аудио – это существенно упростит процесс, но увеличит его время.

Способ номер два.

В решении проблем с расшифровкой на помощь так же придут технологии распознавания речи.

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Обратной задачей является синтез речи.

Первая программа, способная понять и написать, что Вы ей говорите, появилась аж 65 лет назад – в 1952. Признавала и записывала она только цифры, произнесенные человеком. К тому же, был ряд требований, невыполнение которых вело к тому, что точность снижалась до 60-70%.

На данный момент технологиями распознавания речи, как виртуальной реальностью занимаются все, кому не лень. Рассмотрим тех, кто в той или иной степени преуспел.

Для начала расскажем о наших соотечественниках.

Yandex SpeechKit . Заявляют они себе громко и очень уверенно: “Комплекс речевых технологий Яндекса, с которыми ваши сервисы и приложения услышат клиентов и заговорят с ними на одном языке”.

SpeechKit может распознавать речь и переводить сказанное в текст, озвучивать текст, определять тематику и выделять смысловые объекты в речи, дает пользователю возможность использовать голосовое управление.

Центр речевых технологий – ЦРТ. Говорят о себе скромно: “Распознавание голоса, синтез речи, запись и анализ, идентификация лица и голоса”. Центр предоставляет немало услуг и еще больше продуктов и готовых решений. Если говорить о предмете данной статьи, то продукта у ЦРТ три, что вполне неплохо. “Цезарь Р”, “VOCO”, “Voice2Med”. Рассмотрим подробнее, что предлагает каждый продукт.

“Voice2Med” – не наша история, продукт предназначен, как понятно из названия, для медицинских учреждений. А точнее, для заполнения медицинских протоколов.

“Цезарь Р” и “VOCO” – то, что нужно. Оба продукта распознают по 85 000 слов, не требуют доступа к интернет, распознают не только речь, но и аудио. Недостаток, который бросается в глаза – продукты работают исключительно с Windows.

Пример текста:

Медленно, отчетливо, проговаривая знаки препинания:

В любой теории, как известно, различается предмет и объект. Объект_ составляет всю реальность, попадающую в поле внимания. Сам же предмет представляет те стороны, свойства реальности, которые выявляются в связи со специфическими целями изучения. Для Философии специфическим объектом изучения является отношение человек — мир, причем это отношение исследуется наиболее общем плане, прежде всего для того, чтобы человек мог получить какие-либо устойчивые жизненные ориентиры, обрести смысл своего бытия.

Быстро, отчетливо, не проговаривая знаки препинания:

В любой теории, как известно, различается предмет_ и объект_. Объект_ составляет всю реальность, попадающую в поле внимания. Сам же предмет представляет те стороны, свойства реальности, которые выявляются в связи со специфическими целями изучения. Для философии специфическим объектом изучения является отношение человек – мир, причем это отношение исследуется в наиболее общем плане, прежде всего для того, чтобы человек мог получить какие-либо устойчивые жизненные ориентиры, обрести смысл своего бытия.

Имитация обычной речи – не слишком быстрой, с запинками, паузами, словами паразитами:

В любой теории, как известно, различается предмет и объект. Объект_ (лишнее слово) составляет всю реальность, попадающую в поле внимания. Сам же предмет представляет те стороны, свойства реальности, которые выявляются в связи со специфическими целями изучения (лишнее слово) философии. Для философии специфическим объектом изучения является отношение человек – мир, причем это отношение исследуется в наиболее общем плане, прежде всего для того, чтобы человек мог получить какие-либо устойчивые жизненные ориентиры, обрести смысл своего бытия.

О ЦРТ можно сказать, что их программы действительны хороши, если особо не хулиганить и следовать предложенным правилам, то текст получится очень даже неплохого качества. Главная беда продукта – он плохо улавливает окончания.

Speechpad. Невероятных результатов не обещают, заявляют о себе скромно и не слишком претенциозно: “Голосовой блокнот позволяет вводить текст, используя микрофон, а также переводить речь из аудио и видео в печатный текст.

Слушаем запись в наушниках, четко и медленно повторяем услышанное в микрофон. В целом программа справляется очень и очень хорошо, точно не хуже платных аналогов.

Стоит заметить, что Speechpad не прощает длительных пауз, если остановиться слишком надолго, он самопроизвольно поставит точку. К тому же заглавные буквы, даже при словесном указании точек, не расставляет.

Пример текста:

В любой теории, как известно, различается предмет и объект. Объект составляет всю реальность, попадающую в поле внимания. Сам же предмет представляет стороны, свойства реальности, которые выявляются в связи со специфическими целями изучения. Для философии специфическим объектом изучения является отношение человек – мир, причем это отношение исследуется в наиболее общем плане, прежде всего для того, чтобы человек мог получить какие либо устойчивые жизненные ориентиры, обрести смысл своего бытия.

Далее посмотрим, как обстоят дела с технологиями распознавания речи у иностранных специалистов.

Итак, Google. Google движется к так называемой технологии глубокого обучения, т.е. “натаскивает” свои программы, постоянно пополняя их словарный запас.

Технология рассматривается на примере приложения для смартфонов Speechlogger. Приложение очень приятно удивило. Оно понимает не только на языке разработчика – английском, но и на многих других, в том числе, русском. Распознает Speechlogger нашу речь вполне сносно (отлично, на самом-то деле, но не будем перехваливать). В словах ошибок не допускает, даже в окончаниях. На английском расставляет точки, запятые, вопросительные знаки без посторонней помощи – догадливый. На русском такой роскоши нет, но под диктовку запишет.

Пример текста:

В любой теории, как известно, различается предмет и объект. Объект составляет всю реальность, попадающую в поле внимания.

Сам же предмет представляет те стороны, свойства реальности,

Которые выявляются в связи со специфическими целями изучения.

Для философии специфическим объектом изучения является отношение человек – мир, причем это отношение исследуется в наиболее общем плане, прежде всего для того, чтобы человек мог получить какие-либо устойчивые жизненные ориентиры, обрести смысл своего бытия.

Что касается немало известной Siri, то от Google она не отстает – прекрасно воспринимает как хорошо поставленную речь, так и обычную, чуть неразборчивую – с запинками и “проглатыванием” звуков. С окончаниями проблем не возникло, знаки препинания ставятся в ручную или надиктовываются.

Примера текста нет, т.к. техникой Apple автор не пользуется и судить может лишь по отзывам многочисленных знакомых, которые являются приверженцами данной фирмы.

В заключение хочется подчеркнуть довольно удручающий момент – программы иностранных разработчиков распознают русскую речь в разы лучше, чем продукция разработчиков отечественных. И правил по надиктовке у них меньше и словарь больше. Тем не менее мы, пользователи с просторов России, ждем и верим, что ситуация вскоре улучшится, ведь наши разработчики делают все от них зависящее.

От автора:

К сожалению возможностей по переработке аудио в текст больше на сегодняшний день не существует. Как человек, опробовавший оба способа на себе и, в итоге, обратившийся к профессионалам, добавлю про подводные камни каждого подхода.

Печатать самому, параллельно вслушиваясь в аудиодорожку не слишком сложно, но времени отнимает уйму – на какие-то 20 минут ушло часа два, а впереди маячило еще час сорок записи.

Посчитав затраты по времени и потенциальный удар по нервной системе, я принялась искать иное решение. Платить кому-то, конечно же не хотелось. И на горизонте замаячил тот самый speechpad. Дело пошло быстрее, но ненамного, да и повторять постоянно “запятая”, “точка”, “абзац” – занятие очень сомнительного удовольствия.

Через несколько испорченных вечеров, и в связи с близящимся дедлайном, я поняла, что не все стоит делать самостоятельно, иногда гораздо лучше обратиться к тем, кто сделает все быстро и эффективно, за, на самом деле, не большое вознаграждение.