http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink

Статус проекта: победитель конкурса

Тувинский язык в интернет-пространство

  • Конкурс Конкурс для предоставления грантов в форме субсидий Главы Республики Тыва на развитие гражданского общества 2024 года
  • Грантовое направление Укрепление межнационального и межрелигиозного согласия
  • Рейтинг заявки 73,89
  • Номер заявки Р17-24-1-000015
  • Дата подачи 30.04.2024
  • Размер гранта 800 000,00
  • Cофинансирование 570 000,00
  • Общая сумма расходов на реализацию проекта  1 370 000,00
  • Сроки реализации 01.08.2024 - 28.06.2025
  • Организация РЕГИОНАЛЬНАЯ ОБЩЕСТВЕННАЯ ОРГАНИЗАЦИЯ "СОВЕТ МОЛОДЫХ УЧЕНЫХ И СПЕЦИАЛИСТОВ РЕСПУБЛИКИ ТЫВА"
  • ИНН 1700001259
  • ОГРН 1211700000632

Краткое описание

В современном мире с развитием информационных технологий широкое развитие и распространение получили автоматические онлайн-переводчики, ставшие незаменимыми помощниками в обеспечении доступности информации. Онлайн-переводчики позволяют многим удовлетворять свои потребности в информации, обучении и познании других культур, помогают выстраивать гармоничные взаимоотношения между народами, способствуют открытости общества и выступают в качестве неотъемлемого связующего звена между людьми. Современные онлайн-переводчики работают на базе искусственного интеллекта и постоянно развиваются. И для обучения любой модели машинного перевода необходимо большое количество параллельных корпусов текстов, чтобы существенно повысить качество перевода. Если для международных языков создание таких корпусов не составляет большого труда, так как в сети Интернет можно легко найти большое количество параллельных текстов, то для миноритарных языков (таких как тувинский) это превращается в большую трудоемкую работу. Во-первых, на тувинском языке в целом не так много переводных изданий, во-вторых, в региональном сегменте Интернета совсем мало двуязычных сайтов, в-третьих, имеющиеся двуязычные издания не оцифрованы, что также создают дополнительные трудности при создании параллельного корпуса столь необходимого для разработки онлайн-переводчика. Для создания параллельного корпуса необходимо консолидация сил большого количества людей, владеющих тувинским и русским языками, которые будут собирать отдельные фразы на тувинском и русском языках, переводчиков, которые будут переводить необходимый минимум требуемых фраз, редакторов, которые проверят каждую фразу перед тем, как отправить корпус разработчикам онлайн-переводчика.
По трехсторонней договоренности между Правительством Республики Тыва, Федеральным агентством по делам национальностей и компанией "Яндекс" собранный корпус также будет передан компании Яндекс, для того чтобы добавить тувинский язык в сервис Яндекс.Переводчик, благодаря чему, с тувинского языка (на тувинский язык) можно будет переводить на любой (с любого) из 100, имеющихся языков в этом сервисе.
Проект имеет существенный задел: создан специальный портал для сбора тувинско-русских параллельных фраз, где любой желающим может авторизоваться и добавлять фразы, разработана инструкция для сбора параллельных фраз, на 30.04.2024 года уже собрано и отредактированы 138 тыс. параллельных фраз, создана бета-версия онлайн-переводчика тувинского языка (tyvan.ru). Однако данный переводчик разработан на базе из 50 тыс. тувинско-русских параллельных фраз, когда как согласно специалистам Яндекса и Google минимальным условием для создания онлайн-переводчика с высоким качеством перевода является наличие большого параллельного корпуса с объемом от 100 тыс. единиц. Поэтому целью данного проекта является создание качественного онлайн-переводчика тувинского языка. Также машинные переводчики являются основой для создания умных колонок, автоматических переводчиков видео-контента.

Цель

  1. Целью данного проекта является создание качественного онлайн-переводчика тувинского языка.

Задачи

  1. Сбор 400 тыс. тувинско-русских параллельных фраз, необходимых для обучения нейросети
  2. Перевод 100 тыс. фраз, составляющих базу для включения тувинского языка в сервис Яндекс.Переводчик
  3. Вычитка и редактирование фраз параллельного корпуса
  4. Разработка онлайн-переводчика
  5. Добавление тувинского языка в сервис "Яндекс.Переводчик" общенационального интернет-портала.
  6. Размещение готового тувинско-русского параллельного корпуса в открытом доступе под свободной лицензией
  7. Презентация Онлайн-переводчика тувинского языка

Обоснование социальной значимости

1. В современном мире уже разработано большое количество моделей для создания онлайн-переводчиков, однако для каждого конкретного языка требуются большие исходные данные в виде двуязычных параллельных корпусов. И для одного или двух человек создание такой большой базы, необходимой для разработки качественного переводчика, практически невозможно. В тувинском сегменте Интернета необходимы двуязычные сайты, которые будут содержать всю информацию на двух или трех языках (включая англ.), а для их создания также требуется параллельный корпус. Поэтому разработчики нуждаются в таких корпусах, созданных носителями.
2. Одной из причин малой представленности тувинского языка в интернет-СМИ, в публичном пространстве Республики Тыва является трудоемкость перевода текстов на тувинский язык. В этом смысле онлайн-переводчики стали незаменимыми помощниками журналистов, которые сначала используют онлайн-переводчики, а потом уже доредактируют получившийся текст, и таким образом намного быстрее создают контент на двух или более языках.

География проекта

Республика Тыва

Целевые группы

  1. Разработчики, создающие онлайн-переводчики, автоматический перевод сайтов
  2. Журналисты, пресс-секретари, создающие контент и на тувинском, и на русском языках.
  3. Переводчики
  4. Ученые, исследующие тувинский язык.
  5. Люди, изучающие тувинский язык.

Контактная информация

Респ Тыва, г Кызыл, ул Кочетова, д 4