Компания Microsoft устанавливает рекорд по точности работы системы распознавания естественной речи
На международной конференции "Interspeech", посвященной проблемам и технологиям голосового общения, представители компании Microsoft объявили о том, что созданная ими новая система распознавания естественной речи продемонстрировала самый низкий на сегодняшний день уровень совершаемых ошибок. Испытания точности работы этой системы производились при помощи стандартного для этого теста 2000 Switchboard, разработанного в свое время специалистами американского Национального института стандартов и технологий (National Institute of Standards and Technology, NIST). На этом тесте система Microsoft показала уровень ошибочного распознавания в 6.3% WER (word error rate), сместив с первого места пьедестала почета систему компании IBM, точность работы которой составляет сейчас 6.6% WER.
"Наше достижение стало возможным благодаря использованию нового типа многоуровневой нейронной сети, способной формировать прямые связи между отдельными слоями" - рассказывает Ксуедонг Хуань (Xuedong Huang), ведущий ученый компании Microsoft в области распознавания речи.
Вторым компонентом, обеспечившим успех компании Microsoft, стал набор инструментов под названием Computational Network Toolkit (CNTK). Этот набор программных средств позволяет составить оптимизированные алгоритмы глубинного машинного изучения, которые выполняются на порядок быстрее, чем все подобное, что было создано ранее. А ключевым моментом, обеспечившим столь высокое быстродействие алгоритмов, является возможность использования мощи параллельных вычислений на базе графических процессоров (GPU).
Данное достижение компании Microsoft является наглядной демонстрацией уровня развития современной компьютерной техники, программного обеспечения и возможностей систем искусственного интеллекта на базе нейронных сетей. Всего два десятилетия назад наилучшие системы распознавания речи демонстрировали уровень ошибок в 43 процента. Такой показатель имела система компании IBM, созданная в 1995 году, уже в 2004 году новая система компании IBM имела уровень ошибок распознавания слов в 15.2 процента. А в недалеком будущем системы распознавания речи должны вплотную приблизиться и превзойти точность распознавания речи человеком, которая, по оценкам некоторых экспертов, составляет порядка четырех процентов.
И в заключении следует отметить, что компания Microsoft уже достаточно давно сделала искусственный интеллект ключевой фигурой в технологиях голосового управления. Эти технологии уже используются в полной мере голосовым помощником Cortana и не за горами тот день, когда эти технологии займут ключевую позицию в управлении разнообразными портативными электронными устройствами, обычными компьютерами, системами "умный дом", системами автомобилей и управления производством.