|  | 13 сентября 2016 | Информационные технологии

Google обучила искусственный интеллект говорить на естественном языке

Синтез речи


Специалисты подразделения DeepMind компании Google, занимающегося разработкой и исследованиями, связанными с искусственным интеллектом, разработали новую систему под названием WaveNet, позволяющую системам искусственного интеллекта разговаривать на языке, максимально приближенным к естественному человеческому языку. В рамках этого проекта реализован качественно новый подход к синтезу речи, который работает за счет базы данных анализа звуковых волн человеческого голоса вместо того, чтобы сосредоточиться на интерпретации и имитации естественного языка.

Исследователи из различных стран и организаций за последние годы добились достаточно больших успехов в реализации способности компьютеров к восприятию человеческой речи. Это стало возможным благодаря применению нейронных сетей и процессов глубинного машинного изучения. Однако, область синтеза естественной речи значительно отстает от области распознавания речи.

Существующие технологии преобразования текст-речь (text-to-speech, TTS), как правило, основаны на двух принципах, компиляционном (concatenative TTS), в котором речь создается путем компиляции ранее записанных фрагментов речи, и параметрическом (parametric TTS), в котором речь воспроизводится устройством-вокодером, на вход которого передается необходимый набор цифровых данных. Последний метод воспроизводит "механическую" речь, которая очень далека от естественного звучания.

Система WaveNet работает несколько по-иному, составляющая ее нейронная сеть работает с образами звуковых колебаний, а не только с элементами самого языка. Как и любая нейронная сеть, сеть системы WaveNet прошла процесс предварительного обучения путем анализа массива необработанной аудиоинформации, включая речь, музыку и записи других звуков. Для качественной работы процесса обучения системе требуется аудиосигнал с частотой оцифровки минимум 16 кГц, анализ которого в режиме реального времени является достаточно сложной задачей, требующей большого количества вычислительных ресурсов.

В ходе последующих экспериментов специалисты DeepMind "скормили" системе WaveNet записи речи на английском и на китайском языке. После этого в сравнительных целях были созданы образцы искусственной речи на этих языках, синтезированные при помощи трех различных методов, стандартного компиляционного TTS, параметрического TTS и WaveNet.

Эксперты, прослушавшие записи синтезированной речи, признали, что речь WaveNet является более близкой к естественной речи, нежели чем все другие образцы. Тем не менее, пока еще очень сложно спутать синтезированную речь с естественной.

Тем не менее, система WaveNet, даже в том виде, в котором она существует на сегодняшний день, по мнению представителей DeepMind, открывает множество возможностей для реализации технологий взаимодействия человека с компьютером, для производства музыки, компьютерных игр и ряда других областей.

Parametric



Concatenative



WaveNet





Ключевые слова:
Синтез, Речь, Система, Искусственный, Интеллект, Нейронная, Сеть, Google, DeepMind, WaveNet

Первоисточник

Другие новости по теме:
  • Создана самая большая нейронная сеть, предназначенная для реализации технол ...
  • Искусственный интеллект суперкомпьютера Baidu побил рекорд Google по качест ...
  • Исследователи отучили сквернословить суперкомпьютер Watson, очистив некотор ...
  • Компания Microsoft представляет свою технологию перевода в режиме реального ...
  • Программа DARPA "RATS" - реальное воплощение C3P0.




  • 13 сентября 2016 08:48
    #1 Написал: kasanabeer

    Публикаций: 0
    Комментариев: 114
    Как по мне больше понравилось "Concatenative", чем "WaveNet" winked
    В WaveNet шипение голоса какое-то улавливается.
        
    13 сентября 2016 09:36
    #2 Написал: Strain

    Публикаций: 0
    Комментариев: 84
    Цитата: kasanabeer
    Как по мне больше понравилось "Concatenative", чем "WaveNet"
    В WaveNet шипение голоса какое-то улавливается.


    Мне тоже понравился "Concatenative". Но я подозреваю, что это связанно с большей "чистотой" голоса у "Concatenative" и восприятия нами английского языка. Если бы русский там был - я думаю впечатления были бы совсем другими.
        
    13 сентября 2016 11:03
    #3 Написал: FomaNeverujuwij

    Публикаций: 0
    Комментариев: 3708
    Цитата: kasanabeer
    В WaveNet шипение голоса

    Если мысленно отстраниться (абстрагироваться) от этого шипения, которое несложно убрать при помощи простейших фильтров, то голос WaveNet реально более естественен, ИМХО


    --------------------
        
    13 сентября 2016 11:16
    #4 Написал: MaxIvanov

    Публикаций: 0
    Комментариев: 363
    когда на смартфонах появится? ))
        
    13 сентября 2016 11:50
    #5 Написал: bundzmm

    Публикаций: 0
    Комментариев: 458
    FomaNeverujuwij,
    согласен, у остальных двух слышна четкая цифровая модуляция при переходах интонации
        

    Информация

    Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.