В работе я применяю глубокое машинное обучение и компьютерное зрение. Базовая модель – оператор DiffVG, дифференцируемый растеризатор векторных изображений. Именно благодаря дифференцируемости можно использовать обратное распространение ошибки, используя в функции потери растровое, а не векторное изображение.
– Каких результатов вы планируете достичь?– В идеале нужно научиться генерировать векторные изображения разной сложности: с разным количеством фигур, чтобы у каждой фигуры было свое количество параметров. Если это удастся сделать, я надеюсь, можно будет относительно легко адаптировать существующие модели, генерирующие растровые изображения, для работы с векторными.
– Расскажи, почему ты вообще заинтересовался этой темой? – Я занимался генерацией векторных обложек для музыкальных треков в рамках своего бакалаврского диплома. Тему предложила мой научный консультант Валерия Александровна Ефимова. До этого схожей задачей – генерацией кривых линий – занимался старшекурсник с моей программы. Я взял его наработки и углубился в синтез замкнутых фигур.
Во время этой работы я изучил основные базовые модели, посвященные генерации векторных изображений, и решил, что нужно продолжать и дальше заниматься этим направлением, раз есть прогресс. Тем более тема очень перспективная, малоизученная и от этого интересная. Также я стараюсь широким взглядом охватывать всё машинное обучение и параллельно занимаюсь задачей детекции расфокусировки камеры, бликов на изображениях и детекции служебных машин, например, карет скорой помощи, пожарных и т. д.
– Вашу статью по проекту приняли на топ-1 конференцию по компьютерному зрению CVPR 2022. Можешь рассказать про это подробнее?– На конференцию CVPR 2022 мы подавали статью про генерацию музыкальных обложек. Отправили ее программному комитету в ноябре 2021 года, но спустя пару месяцев пришел отказ. Нам написали, что нужно провести больше сравнительных анализов полученных результатов. На самом деле, в теме генерации «музыкальных» изображений довольно сложно определить метрику, поэтому мы решили проводить опросы пользователей. Мы предлагали им сравнить наши картинки и растровые изображения, сгенерированные популярными моделями AttnGAN и DALL-E.
После доработки статьи мы подали ее еще раз, и вскоре узнали, что работу приняли на CVPR Workshop. В июне этого года мой научный консультант Валерия Ефимова выступала на конференции с
докладом по нашей модели.
– Расскажите про свои личные планы: чем собираешься заниматься после окончания магистратуры?– Пока я твердо не определился, чем хочу заниматься дальше, но наверняка это будет связано с программированием. Я получил хорошую базу в бакалавриате КТ и считаю, что обширные знания – это круто. Многие сферы программирования пересекаются, да и само программирование тесно переплетено как с математикой, так и с другими науками. Поэтому моё текущее увлечение машинным обучением хорошо вписывается в такой подход.