• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новый метод кластеризации упрощает анализ больших массивов информации

Новый метод кластеризации упрощает анализ больших массивов информации

© iStock

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм  формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат.
© Aleskerov, F.T., Myachin, A.L. & Yakuba, V.I. Tunnel Clustering Method. Dokl. Math. 110, 474–479 (2024)

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее. 

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных. 

Работа выполнена при частичной поддержке РНФ.

Вам также может быть интересно:

Математики из НИУ ВШЭ в Нижнем Новгороде решили задачу Пола Чернова, поставленную 57 лет назад

В 1968 году американский математик Пол Чернов предложил теорему, позволяющую приближенно вычислять полугруппы операторов — сложные, но полезные математические конструкции, описывающие, как со временем изменяются состояния многочастичных систем. Метод основан на последовательности приближений — шагов, с каждым из которых результат становится точнее. Но до сих пор было неясно, насколько быстро эти шаги приводят к результату и что именно влияет на эту скорость. Полностью эту задачу впервые решили математики Олег Галкин и Иван Ремизов из нижегородского кампуса НИУ ВШЭ. Их работа открывает путь к более надежным вычислениям в разных областях науки. Результаты опубликованы в престижном журнале Israel Journal of Mathematics (Q1).

«Возникла потребность разрабатывать и осмыслять феномен цифрового доверия граждан государству»

Цифровая трансформация госуправления должна повысить скорость обработки данных и выполнения рутинных процедур, усовершенствовать технологии внутриведомственного и межведомственного взаимодействия. Это создает условия для перехода к более эффективному управлению, основанному на данных. Об особенностях цифровизации госструктур «Вышка.Главное» побеседовала с заведующим Международной лабораторией цифровой трансформации в государственном управлении ИГМУ ВШЭ Евгением Стыриным.

Ученые выяснили, как организованный беспорядок усиливает сверхпроводимость

Сверхпроводимость — особое состояние материала, при котором электрический ток проходит через него без потерь энергии. Обычно в материалах с дефектами она возникает при очень низких температурах и в несколько этапов. Международная команда ученых, включая физиков МИЭМ ВШЭ, показала: если дефекты распределены внутри материала не случайно, а по определенной схеме, сверхпроводимость возникает при более высокой температуре и охватывает весь материал. Данные могут помочь в создании сверхпроводников, работающих без экстремального охлаждения. Исследование опубликовано в журнале Physical Review B.

Нейролингвисты ВШЭ выяснили, какие приложения лучше помогают восстановить речь

Ученые Центра языка и мозга НИУ ВШЭ выявили факторы, которые делают цифровые приложения для реабилитации больных с афазией более эффективными. Обратная связь, разнообразие игровых задач, длительный период реабилитации и постоянный контакт с лечащим врачом оказались наиболее важными для восстановления речевой функции. Статья опубликована в журнале NeuroRehabilitation.

«Нет цели сказать, как правильно. Мы стремимся исследовать вариативность»

В НИУ ВШЭ работает Международная лаборатория языковой конвергенции факультета гуманитарных наук, в центре внимания которой взаимодействие языков разных народов, живущих в регионах со смешанным полиэтничным населением. Исследования ученых Вышки помогают лучше понять историю развития языков и изучить особенности восприятия и использования языков в многоязычной среде. Подробнее об этом в интервью «Вышке.Главное» рассказал заведующий лабораторией Георгий Мороз.

От нейронных сетей до фондовых рынков: как развивают компьютерные науки в нижегородской ВШЭ

Созданная в 2011 году Международная лаборатория алгоритмов и технологий анализа сетевых структур (ЛАТАСС) НИУ ВШЭ в Нижнем Новгороде ведет широкий спектр фундаментальных и прикладных исследований, в том числе совместные проекты с крупными компаниями: Сбером, Яндексом и другими лидерами IT-отрасли. Разработанные учеными Вышки методы не только обогащают науку, но и позволяют улучшить работу транспорта компаний, более успешно вести медицинские и генетические исследования. О работе лаборатории «Вышка.Главное» побеседовала с ее заведующим — профессором Валерием Калягиным.

Ученые выявили когнитивные механизмы биполярного расстройства

Международная команда исследователей с участием ученых из НИУ ВШЭ экспериментально показала, что люди, страдающие биполярным расстройством, считают мир более нестабильным, чем он есть на самом деле, и из-за этого чаще принимают нерациональные решения. Ученые предполагают, что полученные результаты позволят в будущем разработать более точные методы диагностики и терапии биполярного аффективного расстройства. Статья опубликована в журнале Translational Psychiatry.

Гражданская идентичность помогает россиянам поддерживать психологическое здоровье в условиях санкций

Исследователи НИУ ВШЭ выяснили, что осознание себя частью страны может психологически помогать в трудные периоды, особенно, если человек склонен переосмысливать происходящее или обращаться к духовным и культурным ценностям. Переосмысление, в том числе, способно несколько снизить уровень депрессии. Исследование опубликовано в Journal of Community Psychology.

Когда мысли становятся движением: как нейроинтерфейсы меняют медицину и жизнь

В начале XXI века человек все чаще становится не просто наблюдателем, а активным участником технологической революции. Среди достижений, способных изменить судьбы миллионов людей, особое место занимают нейроинтерфейсы — системы, связывающие мозг с внешними устройствами. Именно они стали центральной темой весенней Международной школы «Нейроинтерфейсы нового поколения», прошедшей в стенах НИУ ВШЭ.

«У науки нет национальных границ»

Иностранные ученые успешно продолжают работу в лабораториях Вышки, сочетая фундаментальные и прикладные исследования, позволяющие достичь значимых результатов. О деятельности Лаборатории алгоритмов и технологий анализа сетевых структур в НИУ ВШЭ — Нижний Новгород новостная служба «Вышка.Главное» побеседовала с ее научным руководителем — профессором Паносом Пардалосом.