Ученые НУ создали первые цифровые казахские голоса открытого доступа — Исеке и Рая
Появились первые казахские цифровые голоса. Ученые Назарбаев Университета, разработавшие программу, считают ее важным шагом для построения полноценного голосового помощника (условной «казахской Siri»). Что интересного могут рассказать Исеке и Рая и где они «наговаривают» текст — в материале Tengrinews.kz.
Ученые из Института интеллектуальных систем и искусственного интеллекта (ISSAI) Назарбаев Университета создали два цифровых казахских голоса — мужской и женский.
Мужской голос назвали Исеке, женский — Рая. Это производные от настоящих имен двух дикторов, чьи голоса легли в основу синтетических голосов. Они проделали большую работу, наговорили много слов, фраз, звуков, букв и чисел, чтобы цифровые Исеке и Рая без труда произносили как знакомые и распространенные, так и неизвестные или даже несуществующие слова.
Исеке и Рая станут первыми цифровыми казахскими голосами, которые вы когда-либо слышали. Протестировать и послушать их можно здесь. Пока в демо-версии.
По сути, это просто озвучивание казахского текста, но такое в Казахстане создали впервые, и, как оказалось, разработка требует очень большой работы.
«Над этим проектом мы начали работать в середине 2020 года. Основной частью работы были сбор данных и обработка, а это много вычислительных и человеческих ресурсов и много времени. Работа с большими данными была самой сложной, самой важной частью, отсутствие данных, особенно в открытом доступе, препятствовало развитию технологии синтеза казахской речи. Оставшееся время мы потратили на написание кода и обучение моделей», — рассказал один из разработчиков постдокторант ISSAI Ерболат Хасанов.
Можно ли назвать Исеке и Раю «казахской Siri»?
Этот вопрос первым делом приходит на ум, когда слышишь цифровую казахскую речь. Но, как оказалось, тут все непросто.
«Наша разработка преобразовывает текст в аудио, когда как Сири использует голосовые запросы, чтобы отвечать на вопросы, дает рекомендации и выполняет разные действия. Сири включает в себя комплекс разных взаимосвязанных модулей, и преобразование текста в аудио всего лишь является одной из ее частей. Из-за этого нашу разработку пока рано называть «казахской Siri». Несмотря на это, мы считаем наш проект важным шагом для построения «казахской Siri», — поделился Ерболат Хасанов.
Стоит отметить, всю базу данных, которую собрали и обработали ученые Назарбаев Университета, полученный опыт и знания, разработанные технологии — все это они предоставляют в открытом доступе для всех желающих. А вместе с собранными данными они также делятся кодом разработки и предварительно обученными моделями. Ученые решили открыть весь свой опыт, чтобы другие разработчики использовали его для еще большего развития казахстанских технологий искусственного интеллекта и продвижения казахского языка. С помощью этих данных любой желающий может построить свой синтезатор казахской речи, используя технологии, удобные для своих нужд.
Чем могут быть полезны Исеке и Рая?
«Технологии преобразования текста в речь необходимы во многих приложениях, таких как навигация, объявления, интеллектуальные помощники и другие устройства с поддержкой речи. Они обеспечивают доступность для людей с ослабленным зрением и возможности взаимодействия человека с машиной без необходимости использования визуальных и тактильных интерфейсов. Следовательно, эта технология необходима и полезна для любого языка», — рассказал Ерболат Хасанов.
Это еще не все. Ранее мы писали о том, что ученые Назарбаев Университета сделали возможным автоматическое распознавание казахской речи. Для этого они записали и обработали две тысячи голосов, собрали огромную базу аудиоданных на казахском языке.
«В ISSAI у нас есть дорожная карта по созданию всех подобных технологий для казахского языка к середине 2022 года. Мы называем эти технологии «Мягкой (от английского Soft) цифровой инфраструктурой Казахстана», — отметил Ерболат Хасанов.
Пока вы можете послушать, как Исеке рассказывает о знаменитом поэте и композиторе, создателе кобыза Коркыт ата.
Источник: tengrinews.kz