Искусственный интеллект научился воссоздавать лицо по голосу
Нейросеть, созданная американскими специалистами, научилась «рисовать» лицо человека по спектрограмме его речи.
Программа способна определять по голосу три основных параметра: пол, возраст и расу, сообщает arXiv.org.
Ученые из Массачусетского технологического университета использовали для обучения алгоритма базу из миллиона видеоотрывков, на которых были запечатлены около ста тысяч людей. Каждую запись разделили на видео- и аудиоматериалы.
Одна часть программы на основании видеокадров воссоздавала лицо человека в анфас, другая анализировала спектрограмму речи и создавала примерное изображение говорящего.
В результате, отметили ученые, нейросеть научилась хорошо определять пол, но гораздо менее точно указывала возраст (расхождение с реальностью составляло больше десяти лет). Лучше всего ей «удавались» люди с европеоидной и азиатской внешностью.
Авторы разработки отметили, что не планировали добиться точного портрета, а стремились выделить несколько точных параметров из звуковой дорожки. Этого хватит, чтобы, к примеру, создавать анимационные аватары.
Ранее сообщалось, что российские ученые при помощи нейросети «оживили» портреты исторических личностей: писателя Федора Достоевского, ученого Альберта Эйнштейна, художника Сальвадора Дали. Кроме того, в эксперименте задействовали картину: «Неизвестную» Крамского.