Декабрь 19, 2019 Просмотры 422 просмотра

«Гуртовщики мыши». Кое-что об "эволюции" машинного перевода


Еще на заре компьютерной эры человечество, наблюдая за беспрецедентными темпами развития компьютерной индустрии, стало потихоньку задумываться о перспективах такого прогресса. Мало кто сомневался, что в самое ближайшее время, компьютеры станут такими же разумными, как люди, а потом и вовсе превзойдут их мощью интеллекта.

Преобладали два мнения. Оптимистично настроенные граждане самозабвенно верили в огромные перспективы развития машинного разума. Пессимисты, как водится, именно этого опасались.

Были еще скептики, которые не верили в то, что компьютер когда-либо будет в состоянии выиграть в шахматы у чемпиона мира, создать гениальное стихотворение, сделать художественный перевод с хинди на французский, распознать человека на фотографии или просто понять обычную, человеческую речь… Не говоря уж о том, что будет создан универсальный самосовершенствующийся агрегат, способный выполнить все эти действия и еще миллион других нетривиальных задач.

С тех пор прошло более полувека. Эйфории у оптимистов поубавилось, до пессимистов мало-помалу дошло, что их страхи могут воплотиться в жизнь очень даже нескоро. Скептики же пока посрамлены только в одном: компьютер не так давно действительно разгромил чемпиона мира по шахматам. В остальном же реальность катастрофически отстает от прогнозов. Работы над созданием машинного разума, или как его сейчас принято называть, «искусственного интеллекта» (AI) не прекращаются ни на секунду, но до сих пор компьютеры не радуют нас гениальными рапсодиями и поэмами, паршиво распознают образы и даже пока не научились делать переводы с иностранных языков удовлетворительного качества.

Хотя казалось бы, качество машинного перевода за полвека просто обязано было возрасти до приемлемого уровня. Ладно уж, никто не требует от бездушной машины художественных переводов класса Жуковского, но уж технические тексты современные машины должны, по идее, щелкать как семечки.

Особенности перевода технических текстов

В отличие от художественных произведений, состоящих по большей части из неоднозначных слов и словосочетаний, значение которых определяется контекстом, или же относящихся к идиоматическим выражениям, технические термины, как правило, имеют однозначное, более четкое и узкое значение. Кроме того, технические тексты строятся по определенным правилам (более формализованы) и содержат множество специфичных штампов. Сравните, к примеру, словосочетание «press a key» в художественном произведении и в книге, посвященной информатике. В первом случае необходимо сначала определить из контекста, что означает первое слово: «пресса», «печать», «жим», «нажать» или еще какое-либо значение из доброго десятка возможных. Второе слово также многолико или, как говорят лингвисты, полисемично. Если же мы встречаем это словосочетание в техническом тексте, то как минимум с 99% вероятностью оно является устоявшимся штампом, означающим «нажмите [любую] клавишу [на клавиатуре]». Разумеется, вышеприведенные факторы должны способствовать упрощению задачи адекватного машинного перевода технических текстов.

С другой стороны, попытка работы с техническим текстом без учета тематики и стиля, а также без использования специализированных словарей приводит к таким шедеврам, как пресловутое словосочетание, вынесенное в заголовок статьи или же «Lie Algebra – Алгебра лжи», «Kernel-mode driver – водитель ядерного столба».

Термины и технологии

Прежде чем заняться собственно обзором, давайте немного определимся в терминах и скажем пару слов о применяемых технологиях перевода.
Прежде всего, не следует отождествлять машинный (автоматический) перевод с автоматизированным переводом.

Машинный (автоматический) перевод - процесс перевода текстов с одного естественного языка на другой полностью специальной компьютерной программой. («Википедия»)

Автоматизированный перевод - при нём программа просто помогает человеку переводить тексты. Он предполагает такие формы взаимодействия:
- частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей;
- системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё не уложившееся в схему отдает человеку. («Википедия»)

В данной статье нас будут интересовать только системы первого типа.

Технологии машинного перевода (МП) делятся на:

Тупойпрямой (последовательный, пословный) перевод – текст переводится последовательно, каждому слову входного текста подыскивается эквивалент без какого-либо синтаксического и смыслового разбора предложения. Так работали, в основном, первые системы МП.

T-системы (Transfer systems) – системы, осуществляющие перевод на уровне синтаксических структур. Система анализирует входное предложения, строит его синтаксическую структуру, основываясь на грамматических правилах входного языка, затем построенная структура преобразовывается в синтаксическую структуру выходного языка и, наконец, на ее основе синтезируется выходное предложение.

I-системы (Interlingva systems) – при использовании этой технологии перевод разделяется на два этапа. Изначально проводится семантический анализ исходного предложения и строится его смысловое представления на специальном упрощенном языке-посреднике, затем на основе полученного смыслового представления синтезируется выходное предложение.

Кроме того, стоит еще упомянуть недавно появившуюся и, как говорят, перспективную технологию TM, которая используется вкупе с вышеупомянутыми.

TM (Translation memory) – технология, сохраняющая пары «исходное предложение – перевод» в специальную базу данных. При последующих переводах, если программа обнаруживает во входном тексте структуры, подобные сохраненным, они выводятся с указанием процента совпадения. Принятие решения возлагается на человека. Ненайденные фрагменты переводятся обычными методами и также попадают в базу.

Тест систем МП

Начиная с Джорджтаунского эксперимента 1954 года, системы машинного перевода (МП) непрерывно совершенствуются. Они обзавелись множеством полезных и бесполезных дополнительных функций, научились работать не только в пакетном режиме, но и встраиваться в прикладной софт, работать с клипбордом, переводить веб-страницы и даже содержимое окон операционных систем. Последним веянием моды стал выход систем машинного перевода в онлайн: интеграция в поисковые движки и даже формирование с их помощью полновесных иноязычных версий веб-ресурсов.

Все это здорово, но нас с вами это сегодня интересовать не будет. Мы попытаемся оценить качество перевода у современных систем МП и сравнить их с не очень современными для выявления прогресса технологий перевода или отсутствия оного. Для упрощения задачи из всего многообразия программ-переводчиков нас будет интересовать только те, которые осуществляют перевод с английского языка на русский. Выбор языков и направления перевода в первую очередь обусловлен тем, что родной язык автора – русский, а большинство текстов в Сети выложены на английском языке.

Итак, в тесте участвуют следующие переводчики:

Оффлайн-системы МП

- Promt версии 3.2 (1991 год),



- Sarma версии 2.0b (1993 год)



- Stylus версии 3.01(41) (1997 год)



- WebTranSite версии 2.0.2 (1998 год)



- Сократ Персональный 4.1 (2001 год)



- Promt версии 6.0.0.36 (2002 год)



- Promt версии 8.0.90 (2007 год)



Онлайн-системы МП

- Google Translate



- Yahoo! Babel Fish



- InterTran



- Pragma 5.x Online



Для тестов были подготовлены несколько отрывков из реальных технических текстов, а также взят фрагмент известного художественного произведения, но о результатах я расскажу уже в следующей части.

(Продолжение следует).


Просмотры 422 просмотра

Отзывы

Админ
Отлично!
Март 28 Админ

Статьи и обзоры Все статьи

Китайская компания Tecno Mobie, вышла на мировой рынок несколько лет ...
У вас бывает такое? Видео на YouTube останавливается на самом ...
Какие услуги предоставляет компания "НЕТФЛОУ".
Квинслендский университет удивил новым опытом в области создания органического OLED-дисплея.