Статистический машинный перевод: дайте точку опоры!

 Впервые опубликовано на сайте MEMBRANA 

 
Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке… 
 
Фраза эта гласила: «Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают». Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса ( Johns Hopkins University ), предвещал скорое появления новой системы по «кличке» Decoder . 
 
Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт ( Kevin Knight ), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой. 
 
Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии «учат» программу, какое слово что означает - с учётом синтаксиса. 
 
Подобные «словарные» технологии используются в системах вроде BabelFish и Translate.ru . 
 
Поскольку их банки данных - собственно, словари, - были и являются поныне очень массивными, раньше они были более эффективными, нежели «статистические» переводчики. 
 
А новая технология статистического машинного перевода позволяет создавать системы, которые будут «щёлкать» тексты на самых разных языках. 
 
Главное - это наличие «параллельных данных». 
 
Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов - сотрудниками корпорации IBM . Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру «скормить» текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, «выучит» второй язык. 
 
New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) - « rajl kabir » и « rajl tawil ». Если машина «знает», что первая фраза означает «крупный человек», а вторая - «высокий человек», то банальная статистика позволит машине понять, что « rajl » означает «человек». 
 
Подобные простые фразы носят название «N-граммы», и они считаются базовыми элементами систем машинного перевода. 
 
Хотя принцип кажется простым до примитивизма, у него есть ряд своих «но». Во-первых, для полноценного «знания» второго языка требуется огромный массив данных - одним текстом не обойдёшься. 
 
Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения. 
 
А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM . 
 
Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски ( David Yarowski ) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский , бенгальский , непальский и даже клингоский - язык, на котором говорит раса клингонов, существ из сериала Star Trek . 
 
Для «разработки» этого языка даже создан целый институт , умудрившийся перевести на этот язык Библию и «Гамлета» . 
 
Технология всё та же: если автоматическому переводчику предоставить «на съедение» тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны. 
 
Доктор Яровкски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время. 
 
Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета ( University of Southern California ), в частности, Францем Йозефом Охом ( Franz Josef Och ). 
 
Перефразируя Архимеда , Ох говорит: «Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода». 
 
Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны - а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели. 
 
Надо сказать, что в своё время таким образом была расшифрована надпись на Розеттском камне - базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена «Птолемей» и «Клеопатра», удалось расшифровать иероглифическую египетскую надпись, и в итоге - практически весь язык. 
 
Дело Франсуа Шампольона ( François Champollion ), которому и принадлежит пальма первенства в расшифровке надписи Розеттского камня, живёт, процветает и автоматизируется. 
 
Впервые опубликовано на сайте MEMBRANA
 

 


 

 
На нашем сайте вы можете найти нужную Вам информацию об обучении в различных странах мира, России и СНГ. Интересные статьи помогут Вам разобраться, куда направиться учиться, какие методики выбрать для более эффективного изучения иностранных языков. Здесь так же представлен обзор курсов английского языка, а также подборка ресурсов для прохождения онлайн тестов. Онлайн тесты помогают оценить начальные знания изучающего иностранный язык. Это нужно для того, чтобы узнать, какие методики обучения иностранного языка подходят, позволяют понять уровень подготовки человека. Есть помощь для предэкзаменационной подготовки для школьников и студентов. Учителя могут найти для себя интересные наработки по обучению. Подводя итог об этом разделе можно сказать следующее: здесь можно найти практически все, что касается обучения английскому языку, приятного просмотра!