Наша географияЗаявка на членство+7 916 848-78-01info@rusneuro.net
О НейроНетеНаша миссияЧлены союзаНовостиПресс-центрДокументыСovid-19Контакты
Новости / Разработана нейросеть, превращающая картины в музыку
Новости
11.09.2019

Разработана нейросеть, превращающая картины в музыку

Учёные из Нидерландов создали нейросеть, которая генерирует визуально-звуковую синестезию, а точнее её искуственный аналог. Алгоритм, состоящий из двух частей, кодирует изображение в высокоуровневое представление, а затем декодирует это представление в музыку. Алгоритм уникален тем, что он обучался самостоятельно, без пар "изображение-музыка". Описание алгоритма доступно на сайте 

Максимилиан Мюллер-Эберштайн (Maximilian Müller-Eberstein) и Нанне ван Ноорд (Nanne van Noord) из Амстердамского университета создали алгоритм, преобразующий изображения в музыку, причем при обучении он не требует соотносить изображения с музыкой, а учится этому самостоятельно, применяя метод обучения без учителя.

Разработка построена на архитектуре автокодировщика. Такой алгоритм производит преобразование из исходных данных в скрытое представление, которое несет в себе основную информацию об исходных данных и позволяет восстановить их в достаточно похожем виде. Автокодировщики состоят из кодировщика и декодировщика. Особенность таких алгоритмов заключается в том, что, как правило, кодировщик и декодировщик работают с разными данными. Нидерландские разработчики в своей работе использовали необычный подход и применили кодировщик, работающий с изображениями, и декодировщик, работающий с музыкой. Для того, чтобы использовать метод обучения без учителя, авторы применили двунаправленный автокодировщик. После того, как он провел преобразование из изображения в музыку, он производит обратное преобразование из полученной музыки в новое изображение, после чего оно сравнивается с исходным. Это позволяет применять функцию потерь и в ходе обучения снижать разницу между двумя изображениями, тем самым повышая точность работы автокодировщика.



Разработчики обучали алгоритм на популярном датасете MNIST, содержащем 60 тысяч рукописных символов, а также на датасете Behance Artistic Media, из которого они использовали около 180 тысяч картин маслом и акварелью. В качестве музыкального декодировщика они использовали обученную нейросетевую модель MusicVAE.

После обучения авторы проверили точность работы алгоритма количественно, с помощью нескольких метрик, в том числе расстояния Кульбака — Лейблера, а также качественно. Для второй оценки они попросили добровольцев описать свои эмоции при просмотре изображений из датасета с картинами. Эксперимент показал, что после обратного автокодирования эмоции совпадали с эмоциями при оценке исходного изображения со средней точностью 71 процент. Оценить работу алгоритма можно самостоятельно на сайте авторов.

Источник

123242, г. Москва, Малый Конюшковский пер., д. 2, оф. 17