Технология Translation Memory
В.Н. Грабовский; "Мосты" 2/2004
Нейронные сети в работе переводчика
Теории машинного перевода, разрабатывавшиеся в вялотекущем режиме с незапамятных времен, с 1970-х годов получили серьезный импульс. Это было связано с существенными достижениями в области моделирования интеллектуальной деятельности. Помимо чисто научного интереса, это объяснялось возрастающей ролью межъязыковых коммуникаций в современном мире.
Кроме электронных словарей и словарей-разговорников, к середине 1990-х годов довольно большое распространение получили "электронные переводчики" (их стали называть технологией MT [Machine Translation - машинный перевод]). В принципе, "электронные переводчики" - это программы, которые могли обработать целый текст. Правда, на выходе получалось не совсем то, что надо, а если откровенно, то совсем не то. Для того, чтобы результат работы технологии MT стал действительно связным текстом, человеку приходилось немало поработать над ним.
Понятие “машинный перевод” стало общеизвестным. Довольно большое распространение у нас получили отечественные программы Stylus (сейчас она называется Promt) и Socrat. Впрочем, интерес к таких программам после периода первоначального любопытства постепенно снижался, и сейчас он невелик, даже несмотря на то, что их в значительной степени доработали. В настоящее время их используют в основном для знакомства с содержанием иноязычных сайтов в Интернете, а также для чтения и написания электронных писем на иностранном языке.
По большому счету, работа переводчика за столетия принципиально не изменилась. Да, появились компьютеры, этакие быстродействующие и удобные пишущие машинки. Да, появились "электронные переводчики". Однако при всем том, что технологии MT совершенствовались, они так и не стали инструментом, имеющим широкую сферу применения и позволяющим по-настоящему экономить время и силы.
Что такое технология Translation Memory
Новым инструментом переводчика стала технология Translation Memory (TM). На Западе технология TM и созданный на ее базе инструментарий переводчика - Translation Memory Tools (TMT) - хорошо известны и широко применяются. Особенностью такой технологии является механизация переводческой деятельности, а не ее автоматизация в том виде, каком ее видели создатели технологии MT. Причем это более скромное, на первый взгляд, решение принесло практической пользы неизмеримо больше, чем глобальный замысел "электронных переводчиков".
Отличие от электронных словарей и других инструментов переводчика заключается в том, что типичная программа класса ТМ основана на нейронных сетях, которые способны в определенной степени моделировать работу человеческого мозга при обработке данных. Эти сети способны обучаться и анализировать сложные наборы данных, которые сложно обрабатывать с помощью линейных алгоритмов.
В этих программах используются размытый алгоритм, позволяющий отыскивать слова не только в их словарных формах, но и в других формах, например, в другом падеже. Кроме того, они могут находить словосочетания в другом порядке слов. Самоорганизующаяся искусственная нейронная сеть способна находить закономерности и определять взаимосвязи между ними. Программа сравнивает тот фрагмент, над которым вы сейчас работаете, с содержимым базы данных, и предоставляет эту информацию на дисплей. Она может установить, что данный фрагмент похож на аналогичный фрагмент, имеющийся в памяти системы, например, на 99%, на 74%, или даже на 20%.
Каждому переводчику знакомо ощущение, что фраза, над которой он сейчас бьется, уже где-то, когда-то встречалась, хотя бы в приблизительном виде. Причем попадалась либо в этом же материале, либо в каком-то другом, переводимом ранее. Прямо дежавю какое-то… Посмотреть бы ее, эту фразу, хотя бы для справки, чтобы толково сформулировать ту, над которой работаешь сейчас…
Начинаешь листать оригинал обратно, рыться на книжной полке. И часто бывало так, что искомая фраза действительно обнаруживалась. Чаще всего, когда уже поздно, уже после того, как работа над переводом закончена. Думается, в такую минуту все бы отдал за средство, которое помогло бы найти необходимый текст. Даже сейчас, когда печатаешь текст перевода с помощью компьютера, а не на пишущей машинке, всегда жаль переделывать то, что сочинялось с таким трудом. Давняя мечта переводчика - придумать какое-либо средство, которое бы освобождало от необходимости переводить одну и ту же фразу несколько раз.
Подобного рода идея лежит в основе создания технологии Translation Memory, или просто ТМ, на основе которой с конца 80-х - начала 90-х годов начали появляться более или менее работоспособные программы. По сути дела, такая программа представляет собой управляющую оболочку, которая работает с той или иной подключаемой базой данных (ТМ) и которую я бы назвал копилкой переводов. ТМ - это компьютеризированная версия большого картотечного шкафа, в котором хранится каждая фраза, которую вы когда-либо переводили, причем в паре - как на языке оригинала, так и перевода. Каждая такая пара называется билингва. Программа мгновенно напомнит вам, как эту фразу переводили в прошлый раз. Доступ к информации легкий и быстрый.
Обзор основных программ класса Translation Memory
В настоящее время на мировом рынке представлено несколько программных продуктов, использующих технологию ТМ. Они отличаются друг от друга, и порой существенно. Вместе с тем им всем присущи некоторые общие функциональные возможности.
Например, у них, как правило, предусмотрен текстовый редактор, имеющий два параллельных окна. Одно окно предназначено для текста оригинала, второе - для перевода. Когда в окно оригинала выводится исходный фрагмент текста (это может быть предложение, абзац, отдельное слово), начинается поиск аналогичного фрагмента в базе данных. Если в памяти оказался точно такой же фрагмент, он выводится в окно перевода автоматически. Если в точности такого же фрагмент не нашлось, но обнаружился какой-то похожий, то в окно программы выводится найденный фрагмент с указанием процента совпадения.
Переводчик редактирует предложенный программой текст перевода, приводя его в соответствие с оригиналом, посылает его в память базы данных и приступает к следующему. Если ничего не нашлось вообще, то переводчик переводит его с нуля, впечатывая текст в окошко перевода. Закончив работу над этим фрагментом, переводчик посылает его в память базы данных и приступает к следующему. Таким образом, пополнение ТМ происходит автоматически, по мере работы. Сразу после того, как билингва попала в ТМ, она становится доступной пользователю. Если ТМ-программа расположена на сетевом диске и с ней работают другие пользователи, то новая билингва сразу же становится доступной и для остальных переводчиков. После того, как фрагмент оригинала и фрагмент перевода отправлены в базу данных, в окно оригинала выводится следующий фрагмент.
Первую программу такого типа, получившую название Translation Manager, разработала фирма IBM. Вначале IBM использовала Translation Manager для собственных потребностей - для локализации (адаптации на иностранные языки) собственного программного обеспечения. Затем Translation Manager был предложен рынку в качестве коммерческого продукта, и некоторое время он был монополистом в этой области. Эта программа довольно проста в использовании, отличается быстродействием и обеспечивает хорошие возможности для индивидуальных настроек пользователя. Для каждой из трех основных функций предусмотрены отдельные окна - Translation, Translation Memory и Dictionary. В окне Translation Memory отображаются найденные в памяти соответствия, если они там есть, а в окно Dictionary выводится терминология из словарей, разработанных IBM. Есть в этой программе и некоторые неудобства, например, усложненная процедура поиска в копилке памяти (Translation Memory) отдельных слов.
Еще одна программа - SDLX - разработана для своих собственных потребностей английской компанией SDL, занимающейся локализацией программного обеспечения. Каждая программа, входящая в комплект, устанавливается отдельно. SDL Edit - это, собственно, сама программа, с помощью которой осуществляется перевод. В ней есть три окна, показывающие исходный текст, перевод и Translation Memory. Следует отметить, что документ для перевода нельзя импортировать непосредственно в SDL Edit. Сначала его необходимо преобразовывать при помощи SDL Convert, что является определенным неудобством.
Программа Déjà Vu пользуется у переводчиков в Европе популярностью благодаря своей гибкости и адаптивности. Помимо удобства, Déjà Vu отличается от других продуктов самым высоким соотношением цена/качество. По сравнению с двумя предыдущими программами рассматриваемый продукт имеет ряд удобных возможностей. Специалисты отмечают, что с самого начала эта программа разрабатывалась в контакте с ее будущими пользователями. Известно, что последняя версия Déjà Vu тестировалась, в частности, российскими переводчиками. Один из них, Андрей Герасимов, написал положительную рецензию на эту программу в журнале MultiLingual Computing & Technology
Известна в нашей стране и популярная в Европе программа Star Transit. По своей идеологии она совершенно не похожа на другие продукты рассматриваемого класса. Вы уже получили определенное представление о них, и знаете, что все они имеют центральную базу данных большой емкости, копилку переводов, в которой нужные данные обнаруживаются мгновенно (если они там есть, конечно). Как сказал бы Билл Гейтс: "Information at your fingertips". Так вот, все программы Translation Memory имеют электронный каталожный шкаф, а Transit - не имеет. У него все по-другому. Исходные данные и перевод сохраняются в текстовом формате в виде файлов, которые переводчик размещает в директориях по своему усмотрению. Затем переводчик может просто указать программе, какие директории и даже какие файлы ему необходимы. Затем Transit формирует ассоциативную сеть ссылок, с которой и ведется работа. Несмотря на отдельные плюсы, в России Transit не получил широкого распространения. В конечном счете Promt, официальный дистрибьютор Transit, переключился на дистрибуцию Translator’s Workbench фирмы Trados.
А вот Translator’s Workbench, или просто Традос, быстро получил широкое распространение в России, сначала среди переводческих фирм, а затем и среди индивидуальных переводчиков. Наверное, это можно объяснить тем, что он дает возможность работать, не выходя из Word’a, что психологически комфортней. Кому приятно смотреть на текст, испещренный всевозможными кодами в квадратных скобках? Translator’s Workbench (Традос) по сравнению с другими программами более удобен для обычного переводчика, который не является специалистом по программированию, он более понятен по сравнению с остальными программами подобного типа. В частности, кнопки управления снабжены всплывающими подсказками. Находясь в знакомом и понятном Word’е, можно использовать все его инструменты (например, автотексты).
Данный продукт обладает полным набором полезных инструментов, которые в остальных программах присутствуют лишь в той или иной степени. Одним из таких инструментов является Analise, позволяющий заранее проанализировать текст оригинала и выяснить, есть ли там (и в каком количестве) полные и неполные совпадения. Стоит упомянуть и такую удобный инструмент, как Placeables, позволяющую, например, автоматически менять цифры в тексте, если все остальное в переводимом фрагменте совпадает с обнаруженным в копилке переводов (ТМ). Очень удобна автоматическая функция замены в цифрах десятичных точек и/или запятых, формата времени, аббревиатур и т.д. на соответствующие параметры, задаваемые переводчиком.
Подавляющее большинство российских переводчиков, использующих технологию TM, предпочитают Translator’s Workbench (Традос).
Что общего у программ Translation Memory
Резюмируя описание основных программных продуктов класса Translation Memory, следует отметить наличие у них, как правило, ряда общих функциональных возможностей.
Сведение - Alignment
Эта функция позволяет создавать копилки переводов (ТМ) из существующих файлов. Из двух файлов - один с текстом оригинала, а другой с текстом перевода - создается набор билингв. Напротив предложения исходного текста выстраивается его перевод. И так по всем файлам, которые переводчик свел в единую копилку. Степень удобства функции совмещения у разных программ различная.
Обслуживание – Maintenance
По мере накопления в базе данных билингв их количество может увеличиться настолько, что содержимое базы может выйти за все пределы. Могут обнаружиться какие-то неточности и даже ошибки, особенно если программа используется в сети многими пользователями. Возникнет необходимость что-то отредактировать или уточнить, а то и просто удалить. Справедливости ради надо сказать, что упомянутое средство обслуживания программ до конца эту проблему не решает - бороться на практике с засорением копилок переводов все равно затруднительно.
Терминологический словарь - Terminology Program
Все рассматриваемые программы имеют свои терминологические словари, являющиеся по сути известными всем электронными словарями. Терминологические словари могут импортировать файлы в формате словарей или глоссариев, их можно пополнять и вручную.
Текстовый редактор - Document Editor
Здесь, собственно, и осуществляется процесс перевода. Для этого у всех программ предусмотрены упоминавшиеся выше два окна - для исходного текста и для его перевода. У всех текстовых редакторов есть возможность устанавливать в процентах степень сходства между переводимым в данный момент исходным текстом и текстом в копилке переводов. Чем выше вы установите процент сходства, например, 90% или 95%, тем меньше вероятность обнаружения там подходящего текста. Однако можно установит процент поменьше, тогда может набраться немало материала, который был бы полезен хотя бы для справки.
Конкорданс (Связка словоупотребления с контекстом) - Concordance
Это очень полезная функция всех рассматриваемых программ. Нередко бывает, что какой-то термин (или сочетание терминов) может иметь несколько значений или оттенков значений. Выделив термин, можно просмотреть в окне все билингвы, имеющиеся в копилке, причем в самых разных контекстах. Это всегда облегчает выбор наиболее точного варианта перевода данного термина или сочетания.
Наталья Шахова, директор агентства EnRus, считает что большинство TM-продуктов избавляют пользователя от необходимости знакомиться с различными текстовыми процессорами. Достаточно изучить особенности текстового редактора самого продукта, и вам станет подвластно все разнообразие текстов, будь они представлены в QuarkXPress, FrameMaker или Adobe Illustrator. Здесь есть, конечно, некоторый подвох: для того чтобы освоить очередной текстовый процессор или издательскую систему, вам понадобится соответствующая программа-фильтр, которая - что? Правильно - продается за отдельные деньги! Вообще денежный вопрос самый серьезный, когда речь идет о TMT. Стоят они недешево (как правило, несколько сотен долларов), совместимости, понятное дело, нет. Поэтому если вы приобрели (и освоили!) какой-либо продукт для одного проекта, то для следующего может потребоваться приобрести другой продукт и снова тратить время на его изучение.
Далее Наталья Шахова отмечает, что на Западе уже вовсю обсуждают последствия повсеместного распространения таких программ. Одно из них заключается в том, что переводчик-новичок теряет возможность выйти на рынок. Точно так же, как в России уже очень трудно получить заказ переводчику, если у него нет компьютера и принтера, так и за границей возникают проблемы трудоустройства у переводчиков, не имеющих TM-программы. У этого явления есть и положительная сторона - нанимая на работу владельца TM-программы, заказчик получает некоторую гарантию его профессионализма. Но ведь и новички должны иметь возможность стартовать!
Что дальше?
Отношение к технологии Translation Memory в нашей стране разное.
Когда в 1999 году бюро переводов "Фонетикс" начало работать с Trados Translator’s Workbench, то естественно, в ходе контактов с заказчиками мы рассказывали о переходе на новую технологию. Вопреки ожиданиям, реакция была настороженной, а порой и просто отрицательной. Оказалось, что идея машинного перевода была уже скомпрометирована бездумным применением в 90-х годах программ типа Stylus и Socrat. Причем их нередко использовали переводчики, скажем, не очень высокой квалификации, которые не утруждали себя редактированием того, что выдавали "электронные переводчики". Впрочем, пользователей этих программ тоже можно понять - редактирование этих текстов требовало много времени и сил.
Даже сейчас порой можно встретить со стороны заказчиков из числа российских организаций настороженное отношение к любым новациям в сфере программного обеспечения для переводов. Вместе с тем иностранные фирмы, наоборот, требуют применения программ класса Translation Memory. Зачастую у них есть сложившиеся предпочтения, в основном это Trados Translator’s Workbench, а также Star Transit. У них нередко имеются готовые ТМ (копилки переводов), которые они предлагают использовать.
Что касается переводчиков, то они испытывают к технологии Translation Memory вполне понятный интерес. Еще более понятный интерес испытывают к ним бюро переводов. Они имеют дело не столько с художественной литературой, публицистикой, поэзией и т.д., сколько с инструкциями по эксплуатации, руководствами по поиску и устранению неисправностей, а также с локализацией программного обеспечения, т.е. с теми материалами, где имеются повторяющиеся или схожие фрагменты текста.
В своем нынешнем виде программы Translation Memory, по-видимому, достигли потолка. Дальнейшая работа по их доработке идет по пути совершенствования их существующих функциональных возможностей. Это ведет к тому, что программы становятся все более громоздкими и сложными, и это при том, что каких-то принципиально новых идей там нет. Тот же Translator’s Workbench (Традос) в своей последней версии оброс таким набором инструментов, что простому пользователю разобраться в них очень сложно.
Эксплуатация этой программы предполагает наличие в штате бюро переводов отдельного сотрудника. Помимо руководства пользователя, в документации предусмотрено руководство для выделенного специалиста (TRADOS Specialist Guide). Кроме этого в пакет документации входит Project Management Guide, MultiTerm User Guide и WinAlign User Guide. Даже у подготовленного переводчика на ознакомление с сотнями страниц этих документов потребуется много сил и времени.
Поиском новых решений занимается группа исследователей в университете Мэрилэнд, округ Балтимор (США), под руководством профессора С.Ниренбурга, известного специалиста в области искусственного интеллекта и машинного перевода. Пока разработки находятся на стадии теоретических исследований, и скорее всего, доведение этих исследований до стадии коммерческого продукта потребует значительного времени.
Обращает на себя внимание то обстоятельство, что на рынке инструментов переводчика работают в основном зарубежные фирмы. Хотелось бы надеяться, что это не будет продолжаться вечно. Потенциал теоретических разработок российских специалистов в области семантического анализа очень большой. Наши исследования в этой области достигли весьма высокого уровня. Есть все основания рассчитывать, что эти разработки будут материализованы в виде принципиально новых лингвистических технологий, которые позволят в полной мере раскрыть творческий потенциал переводчика.
Об авторе:
Грабовский Владимир Николаевич - выпускник МГИМО МИД РФ. Работал на дипломатических должностях в посольствах СССР в Японии и Сингапуре, а также в центральном аппарате МИД СССР. В 1988 году создал первое в СССР частное переводческое учреждение - Кооперативное бюро переводов «Инлингуа», впоследствии преобразованное в Бюро переводов «Фонетикс». Генеральный директор Бюро переводов «Фонетикс». Член правления Союза переводчиков России.