Кластерная математика на ИМИТ • ИМИТ

Некоторые люди, которые, образно говоря, не вполне в теме, склонны считать, что занятие математикой предполагает массовые численные расчеты, а также связано с выводом и изучением громоздких формул. Или они могут считать, что математик дни и ночи сидит за компьютером, кропая код и отлаживая большие алгоритмы (но, на самом деле, коды разрабатывает программист, что совсем не одно и то же, что математик).

Но оказывается длительные и сложные расчеты и монотонные действия совсем не обязательны. Часто серьезные математические проблемы решаются просто в результате длительных и целенаправленных обдумываний задачи. И может даже получиться, что итог этих многочасовых размышлений появляется в виде формулы. Но она чаще всего бывает короткой и красивой. Даже непонятно, как это сразу нельзя было догадаться, что нужно написать именно такие символы – и задача решена! А всевозможные сложные расчеты и огромные программные комплексы появятся уже потом, как верные и старательные приспешники этой первой, прорывной формулы.

В этом большая, серьезная математика сродни поэзии, когда раз – и вот оно, простое и замечательное стихотворение. И почему я сам его не написал? А вы попробуйте! Может быть, именно у вас талант к подобным математическим чудесам.

Приведу один пример. Коллектив студентов-математиков в рамках специализаций «Математика. Компьютерные науки» и «Прикладная информатика» занимается именно такими задачами на кафедре математического анализа под моим руководством. Расскажу о некоторых из этих работ, объединенных темой кластерной математики. Так называют раздел интеллектуального анализа данных, который начал активно развиваться и внедряться в практику в последней четверти ХХ века.

В самой общей формулировке задача кластерного анализа состоит в поиске оптимальных разбиений большого множества изучаемых объектов на непересекающиеся части (кластеры). При этом требуется, чтобы объекты одного кластера в некотором смысле были бы более похожи, чем объекты, которые оказываются в разных кластерах. Можно приводить много разных причин, почему построение подобных разбиений важно. Но дополнительно часто требуется построить наилучшее возможное разбиение для конкретной решаемой задачи, для чего требуется разработать способы сравнения разных кластерных разбиений между собой.

Стоит заметить, что при построении кластеров исследователь опирается на значение так называемых формирующих показателей объектов и конкретные числовые значения этих показателей. Например, при установлении диагноза врач изучает температуру тела, пульс, результаты различных анализов и измерений. К сожалению, часто изучение того самого главного показателя, по которому диагноз устанавливался бы надежнее всего, недоступно или даже точно не известно, как он устроен. Такой скрытый от наблюдения показатель называют латентным. Методами выявления, оценки таких показателей, а также улучшением имеющегося кластерного разбиения по результатам этого процесса занимается Максим Свеженцев. Соответствующая техника была предложена менее 10 лет назад и практически не изучалась «большой математикой». Работа Максима называется «Направленный поиск оптимизации латентных классов».

Кластерных алгоритмов, т.е. методов разбиения на кластеры, на сегодняшний день разработано достаточно большое количество. Поэтому у практикующего статистика в конкретном исследовании чаще всего уже имеется некоторое «стартовое» разбиение. Но всегда стоит задача его улучшения в том или ином смысле. Например, качество разбиения можно связать с теснотой, близостью ансамблей формирующих показателей внутри каждого из кластеров. Чем более они похожи, тем разбиение лучше.

Естественным способом улучшить стартовое разбиение является перемещение объектов из одного кластера в другой. Изучением этого процесса занимается Виктория Титова. Ясно, что существуют уже неулучшаемые далее разбиения, что, в общем-то, неудивительно. Но вот то, что таких неулучшаемых разбиений одного и того же множества объектов может быть несколько, и некоторые стартовые разбиения после оптимизации приходят к одному из них, а некоторые к другому, предвидеть было уже довольно трудно. Те разбиения, которые приводятся к одному из неулучшаемых разбиений, мы назвали его орбитой. Работа Виктории носит название «Орбиты оптимальных кластерных разбиений конечного множества», и первые результаты этого исследования уже были ей опубликованы в сборнике «Труды семинара по геометрии и математическому моделированию» в 2023 году.

Речь о возможности сравнений различных способов кластеризации изучаемого множества здесь уже шла. Отдельный разговор нужен о способах сравнения таких разбиений между собой. Например, степень схожести двух разбиений может быть оценена неким числом, расстоянием между ними в определенном смысле. Нашим коллективом изучается метрическое пространство, элементами которого являются разбиения. Если совсем просто, найден способ ввести удобную для изучения метрику, расстояние на семействе всех возможных кластерных разбиений изучаемого множества объектов.

После этого возникает ряд задач, которые сегодня решают младшие члены коллектива, в настоящий момент третьекурсники. Курсовая работа Александра Вагнера называется «Наиболее удаленные кластерные разбиения» и методы, описываемые там, позволяют по заданному кластерному разбиению построить то, которое в смысле введенного расстояния удалено от него максимально.

В работе Никиты Гордеева «Коэффициент коллигации кластерных разбиений» изучается способ сравнения сразу двух альтернативных разбиений по их отношению к некоторому основному «эталонному». По уверению тех практикующих медиков, в постоянном контакте с которыми мы работаем, результаты этого исследования могут применяться при внедрении новых методов дифференциальной диагностики по сравнению с уже применявшимся и выборе лучшего из двух возможных предлагаемых вариантов.

Богдан Дорошенко занят сравнением влияния формирующих показателей объектов на результаты кластеризации. Дело в том, что знание значения одного из показателей может полностью или частично заменять знание другого, что позволит отказаться от измерения этого другого, и, как следствие, приводит к экономии времени и средств. В этом случае говорят, что один из показателей доминирует второй. Конечно же, для нас это доминирование оценивается только в плане влияния показателей на вид кластеров. Курсовая работа Богдана – «Кластерное доминирование».

Наконец, можно рассмотреть еще одну задачу, которая на старте требует наличие разбиения множества на кластеры. Каждый кластер является по сути некоторой категорией объектов. Например, мы разбиваем все объекты на «зеленые», «фиолетовые» и т.д. Или (если речь идет о медицине) кластер – больные с одним диагнозом (грипп, ОРЗ, ковид в конце концов). Значит, построив разбиение, каждому из объектов мы как бы присвоили новый качественный признак – название кластера, к которому этот объект относится. Назовем этот признак кластерной переменной.

Для включения такой переменной в математическую модель нужно каждое ее значение заменить на число, оцифровать ее. Такая задача называется задачей квантификации. Разумеется, оцифровку нельзя производить просто так, «на глаз», она должна быть тесно связана с решаемой исследователем задачей. Курсовая работа Станислава Еськова – «Геометрический подход к задаче квантификации кластерной переменной».

В этой заметке рассказано только о наиболее интересных работах нашего коллектива. О других, не менее интересных, рассказать так коротко не получится. А еще часть работ – Александра Калинкина, Анны Оборовской, Ивана Башегурова и других студентов и магистрантов, лежат несколько в стороне от рассмотренной тематики. Многие из них также опубликованы.

Пользуясь случаем, приглашаю вас присоединиться к нашему коллективу. Уверяю вас, что только процесс совершения собственного, пусть и маленького, математического открытия, способен доставить истинное наслаждение и дать импульс к дальнейшему вашему прогрессу как ученого.

Статью составил:
Дронов Сергей Вадимович, доцент кафедры мат. анализа