четверг, 15 ноября 2012 г.

Microsoft: языковому барьеру – конец.


 Сегодня Microsoft опубликовала видео, в котором глава исследовательского отдела компании Рик Рашид демонстрирует технологию, позволяющую человеку разговаривать на чужом, незнакомом языке так же, как на своем собственном.


Сначала докладчик показывает, как была улучшена технология распознавания и транскрибирования самой речи. Рик Рашид произносит слова, и с незначительной задержкой программа переводит их в текст. Надо сказать, результаты довольно впечатляющие. Задержка составляет одну-две секунды. Точность попадания вообще удивительная.

Несмотря на бурный прогресс компьютерных технологий, до недавнего времени процент ошибок в распознавании речи все равно был довольно велик. Рашид рассказал, что новые результаты были достигнуты благодаря технологии Deep Neural Network, разработанной в Университете Торонто. Не вдаваясь в подробности, он сказал, что для понимания речи исследователи попытались воспроизвести принцип работы нейронных сетей мозга. Видимо, удалось.

Это, между прочим, значит, что проблема перевода речи в текст уже скоро исчезнет вовсе, а вслед за этим начнет, вероятно, и отмирать навык быстрой печати и скорописи. Но речь не об этом.

Дальше Рашид переходит собственно к машинному переводу, который уже сейчас работает на довольно неплохом уровне, и нахваливает майкрософтовский Bing Translator. Он, говорит, работает в два этапа, сначала речь переводится буквально, а потом программа пытается понять смысл и пересказать на другом языке грамматически правильно. Это, конечно, можно сказать и про другие электронные переводчики, и главная проблема электронного перевода в том, что со смыслом у машины пока проблемы. Человек, который найдет и опишет алгоритм универсальной грамматики, станет, наверное, главным героем десятилетия. Однако, благодаря современным системам сбора и анализа лингвистических данных, компьютерный перевод, скажем, с английского на китайский уже действительно неплохо работает.



Это все понятные вещи, и даже третья составляющая – синтезатор речи с голосом конкретного человека – тоже уже не выглядит фантастикой, но в исследовательском отделе Microsoft разработали прототип программы, которая синтезирует твой голос на другом языке. В данном случае было использовано несколько часов записи с образцами китайского произношения и час записи самого Рашида.

Все вроде понятно: складываем распознавание речи, электронный перевод, синтезатор речи – но то, что происходит на восьмой минуте записи, иначе как волшебством не назовешь. Рашид произносит фразу на английском языке, и с небольшой задержкой аудитория слышит его же, говорящим по-китайски.

Сам Рашид тут же оговаривается, что работы только начались, и до аппарата, который будет у вас в ухе разговаривать голосом знакомого китайца на русском, пройдет еще довольно много времени. Но, очевидно, ждать придется никак не сотни лет, и, скорее всего, даже не десятки.

Языковой барьер, говорите?

Комментариев нет:

Отправить комментарий