• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

НИУ ВШЭ собирает экспертов из ведущих университетов мира в Санкт-Петербурге

С 18 по 22 мая Высшая школа экономики в Санкт-Петербурге станет центром глобального академического диалога. Международная партнерская неделя объединит более 100 делегатов из 47 университетов и 20 стран мира.

Сохранить рациональность в период турбулентности

Международная лаборатория логики, лингвистики и формальной философии НИУ ВШЭ исследует логику и рациональность в изменившемся мире, характеризующемся многообразием логических систем и рациональных агентов. Лаборатория поддерживает и развивает научные связи с российскими и зарубежными партнерами. Новостная служба «Вышка.Главное» побеседовала о ее деятельности с заведующей лабораторией, профессором Еленой Драгалиной-Черной.

Гонка за ресурсами и зеленый переход: три неожиданных вывода исследователей Форсайт-центра о климате и бедности

За фасадом зеленой энергетики, которая для большинства ассоциируется с солнечными панелями, электромобилями и сокращением выбросов СО₂, скрывается сложный узел геополитических интересов, межстранового неравенства и ресурсных ограничений. Ученые из Лаборатории исследований науки и технологий (ЛИНТ) Форсайт-центра ИСИЭЗ НИУ ВШЭ опубликовали цикл статей в ведущих международных журналах о скрытых и явных конфликтах вокруг критически важных металлов и минералов и связанных с ними процессов в энергетике.

Студенты Вышки — среди победителей акселератора высокотехнологичных стартапов от «Яндекса»

«Яндекс» подвел итоги акселератора Yandex AI Startup Lab, в финальный раунд которого вышли 12 ИТ-проектов. Их создатели, студенты и молодые предприниматели, вместе с экспертами компании три месяца работали над развитием своих продуктов. Четыре стартапа в сферах цифрового маркетинга, медицины и робототехники признаны лучшими: их команды получили денежные призы и гранты на облачные ресурсы. В их числе и стартап Gradius от студентов НИУ ВШЭ .

В НИУ ВШЭ обсудили перспективы развития сотрудничества с Пекинским университетом

В Москве состоялась встреча руководства Высшей школы экономики с делегацией Пекинского университета во главе с ректором Гун Цихуаном. В ходе встречи стороны договорились о развитии партнерства между университетами в рамках проведения перекрестных Годов российско-китайского сотрудничества в области образования (2026–2027 годы).

НИУ ВШЭ и Назарбаев Университет: научно-образовательная кооперация

В апреле Вышку с официальным визитом посетила делегация Назарбаев Университета (Казахстан). Главной целью встречи стало установление сотрудничества между университетами, расширение партнерских связей и проработка совместных проектов в интересах развития отношений между Россией и Казахстаном.

AI AWARDS 2026: аналитическую основу премии формирует iFORA НИУ ВШЭ

Высшая школа экономики вошла в число партнеров премии AI AWARDS 2026, которая пройдет 29 апреля в Москве. Проект, реализуемый командой «Билайн Big Data & AI», посвящен практическому применению искусственного интеллекта и объединяет компании, технологии и команды, которые уже сегодня влияют на развитие новой цифровой экономики. Вклад номинантов AI AWARDS в развитие ИИ анализируется на основе данных, поэтому качество аналитической базы и прозрачность методологии становятся для рынка принципиально важными.

«Там, где невозможно точно предсказать результат, возникает стохастика»

Международная лаборатория стохастического анализа и его приложений НИУ ВШЭ изучает системы и явления, в которых случайность играет ключевую роль. Цель — прогнозирование различных явлений и их развития. «Вышка.Главное» побеседовала с заведующим лабораторией Владимиром Пановым и ее научным руководителем Валентином Конаковым.

«Познакомиться с профессорами, получить опыт»: лицеисты Узбекистана на стажировке в ВШЭ

Это уже четвертая выездная школа проекта «Лицейские классы» при поддержке НИУ ВШЭ, реализуемого Дирекцией по интернационализации Высшей школы экономики. В этом году в Вышку прибыли 79 учеников узбекских лицеев International House Tashkent и Interhouse Lyceum. В программе — знакомство с университетом, посещение учебных пар, а также экскурсии по Москве.

НИУ ВШЭ и Альфа-Банк запускают исследовательские проекты в сфере искусственного интеллекта

НИУ ВШЭ и Альфа-Банк объявили о старте трех совместных проектов в области искусственного интеллекта. Они направлены на развитие аналитических инструментов для банковских сервисов — от более точных прогнозов до новых подходов к управлению рисками и персонализации клиентского опыта.