Ком ту мон будуар


До сего дня считалось, что человеческий голос состоит из уникальных характеристик, которые как отпечатки пальцев строго индивидуальны. Но компьютерная индустрия развивается семимильными шагами. Алгоритмы становятся все изощреннее, скорости обработки все выше и точнее.

Время от времени на рынке программного обеспечения с попеременным успехом появляются так называемые голосовые движки или синтезаторы речи. Немало попыток сделать и систему голосового распознавания речи с переводом устной информации в печатную. Как правило, нам ничего не известно о программах, работающих на службе всесильных военных ведомств, и мы можем обсуждать только далекие от совершенства суррогаты. Тех, что «пылятся» в компьютерах простых пользователей.

Первая ласточка AT&T уже далеко позади. В свое время, на рубеже 2000 года эта корпорация создала нечто поистине замечательное. Но, как известно, подобного рода инновации необходимо согласовывать с определенными структурами. И не потому чтобы избавить себя от неприятностей впоследствии, а потому что любое изобретение де факто проходит отборочный контроль комиссии экспертов, где еще «работают» немало сотрудников «большого брата».
Как и следовало ожидать, вскоре после получения патентов, руководители кампании были приглашены в скромный офис на Оркст авеню, где состоялась беседа состоящая практически из одних междометий. В последующем, после серии встреч, дебатов и переговоров компании пришлось притушить свои амбициозные планы и согласится на серьезные урегулирования технической мысли с существующей проблемой безопасности, учитывающей, в том числе, психологические особенности, как обывателей, так и киберпреступников. (Последних, в настоящее время заметно прибавилось прим автора).
Известно только то, что достигнуто соглашение включающее в себя необходимость выработки жизнеспособного алгоритма контроля в этой сфере. До этого же момента данный продукт не поступит в свободную продажу.
Где сейчас эта первая разработка, спросите вы? Руководители Пентагона, ЦРУ, ФБР, равно как и отдельные лица, входящие в круги политического истеблишмента блюдут упорное молчание.

Сама же кампания AT&T до сих пор работает над разработкой превентивных средств защиты новой технологии. Уже строятся излучатели, наполняющие эфир специфическими информационными маркерами. В сами программы систем распознавания искусственных голосов встраиваются «водяные знаки» в виде определенных сигналов, не различимых человеческим ухом. Что позволит их отслеживать специальными детекторами. Предполагается, что с их помощью можно будет определить, настоящий ли человек говорит с вами по телефону, или это синтезированный голос. Но вероятно, алгоритмы внедрения подобных сигналов не дотягивают до «нужного» уровня, способного противостоять ими же самими созданной программе синтезирования голоса.

Тем не менее, после, извините, «кастрации» (более правильно определяющего термина просто трудно подобрать) первоначальной программы, свет увидел на 60% урезанный полу-клон под названием AT&T «Natural Voices».
Но вот уже 7 лет, как ничего не слышно о новой-старой разработке, «настоящей» программы. Что наводит на определенные размышления. Или опять вмешались сильные мира сего?
Но не все так просто как им бы хотелось. Кризис, который, скорее всего еще только начинается, высвободил не только изрядную долю недовольства некоторых сотрудников, но и напрямую повлиял на мысли неизвестного доселе Юлана Ковач, венгерского программиста способного взорвать рынок программного обеспечения в распознавании и синтезировании речи. Ковач, один из многих, кто безусловно в курсе ранних разработок, и, скорее всего, занимался ими. Предпринятая недавно попытка опубликовать секретные сведения, была жестко пресечена. Вторая попытка была более успешной. Выложенный материал просуществовал 40 минут, что конечно говорит о том, что ничто не забыто.
Есть и другая, куда более тонкая сторона данного вопроса – маркетинговая. Есть мнение, что таким образом кто-то просто прощупывает рынок.

Как бы то нибыло, организованная недавно Bedlam корпорейшн групп также нашла возможность оцифровывать отпечаток голоса динамическими кривыми. Роботает ли она с Ковач не известно.

Преобразование кривой голосового отпечатка проходит в несколько этапов. Вначале все трассируется в кривые, с равноудаленными маркерами на вершинах, что чем-то напоминает маркеры программ Corel Draw и Adobe Illustrator. Затем формируется амплитудное разделение частот и привязка их к базовой матрице. При этом учитываются более 200 тыс параметров. Все они подразделены на группы и доступны для редактирования каждая в отдельности. Не смотря на кажущуюся монструозность, все происходит более чем незаметно для пользователя. Предоставляя ему только основные показатели. В конечном итоге кончики вершин можно просто подтягивать мышкой, внося различные оттенки и гармоники для изменения первоначального отпечатка.


Таким образом, голос приобретает новое звучание лишенное механистических вкраплений и соответствует «природному».

Вероятно, в скором времени можно будет ожидать всплеск наполнения интернет пространства не только видио фейками но и голосовыми. Но вернемся к теме.

В отличие от компании AT&T Bedlam корпорейшн делает ставку не на синтез голоса, а напротив на унификацию бесчисленного количества вариантов ревербераций. Для чего это нужно? Практическое применение того, о чем я сейчас говорил, самым тесным образом связано с отсутствием программного обеспечения в нашей стране. Нам русскоязычным это необходимо чтобы, наконец, обрести свою программу распознавания голоса и перевода устной речи в печатный текст.
До сих пор разработчики пытались «учить» программу подлаживаться под особенности говорящего. Теперь все меняется. Жестко прописанный алгоритм буквально заточен под перевод ОДНОГО эталонного голоса. А программное обеспечение теперь занимается приведением голоса говорящего к эталонному.
Полученный отпечаток говорящего проходя все этапы унификации наиболее близко приходит к соответствию с эталонным и программа свободно печатает наговариваемый текст.


Как ни странно эталонный голос весьма отдален от природного и напоминает дребезжащий, скрежещущий роботизированный звук, эдакий аналог смешения голоса спичера со звуком старого модема.
Но поскольку мы пользователи все равно это не слышим, а слушает его компьютер, то и беспокоится не о чем. Скорее всего, это был наиболее удобный вариант унифицирования.
Готовое к реализации программное обеспечение приостановлено. Причины подобные выше озвученным. Но будем надеяться ненадолго.
Разумеется впереди еще много задач по грамматике, стилистике, но это уже тема другого обзора.

А что же с разработкой AT&T? И применения программы по прямому назначению?
Кроме прочего эта разработка найдет свое применение в голосовых аппаратах больных, а в дальнейшем ,при встраивании микрочипа в трахею позволит воспринимать не только дребезжание, а слышать нормальную человеческую речь.

Как стало известно из достоверных источников, в свободную продажу продукт не поступит в ближайшие десять лет, поскольку как бы ни хотелось нам приукрасить свой голос или выбросить клавиатуру как архаичный гаджет, в программу заложены алгоритмы которые могут быть использованы в неправедных целях. Когда в руках нечестных людей окажется мощнейший инструмент для обмана других. А может что-то еще, о чем умалчивается.
А вот программный продукт SpeecherVox от BedlamСо, напротив, хотелось бы увидеть поскорее.

P.S. Отдайте мне эту коробку! Я никому не расскажу. Мне надоело пользоваться клавиатурой и терять столько драгоценного времени!



Похожие статьи

Увы. Суждений по поводу что: "ПЕРЕВОД ГОЛОСА В РУССКИЙ ТЕКСТ ПО-НОВОМУ" пока нет

Можно высказаться по этому поводу: