Обучение искусственного интеллекта видеть глубину в фотографиях и картинах
Исследователи из Лаборатории вычислительной фотографии СФУ надеются дать компьютерам визуальное преимущество, которое мы, люди, считаем само собой разумеющимся, — способность видеть глубину на фотографиях. Хотя люди естественным образом могут определять, насколько близко или далеко находятся объекты, с одной точки зрения, например фотографии или картины, это проблема для компьютеров, но она может скоро преодолеть ее.
Исследователи лаборатории вычислительной фотографии Университета Саймона Фрейзера в СФУ успешно обучают искусственный интеллект определять глубину по одной фотографии.
Исследователи недавно опубликовали свою работу, улучшающую процесс, называемый монокулярной оценкой глубины, метод, который учит компьютеры видеть глубину с помощью машинного обучения.
«Когда мы смотрим на изображение, мы можем определить относительное расстояние до объектов, глядя на их размер, положение и соотношение друг с другом», — говорит Махди Мианголех, студент магистратуры, работающий в лаборатории. «Это требует распознавания объектов в сцене и знания того, какого размера объекты в реальной жизни. Только эта задача является активной темой исследования нейронных сетей ».
Несмотря на прогресс, достигнутый в последние годы, существующие попытки получить результаты с высоким разрешением, которые могут преобразовать изображение в трехмерное (3D) пространство, потерпели неудачу.
Чтобы противостоять этому, лаборатория признала неиспользованный потенциал существующих моделей нейронных сетей в литературе. Предлагаемое исследование объясняет отсутствие результатов с высоким разрешением в существующих методах ограничениями сверточных нейронных сетей. Несмотря на значительные достижения последних лет, нейронные сети по-прежнему обладают относительно небольшой способностью генерировать множество деталей одновременно.
«Наш метод анализирует изображение и оптимизирует процесс, просматривая содержимое изображения в соответствии с ограничениями текущих архитектур», — поясняет доктор философии. студент Себастьян Дилле. «Мы передаем наше входное изображение нашей нейронной сети во многих различных формах, чтобы создать столько деталей, сколько позволяет модель, сохраняя при этом реалистичную геометрию».
Команда также опубликовала дружественное объяснение теории, лежащей в основе метода, которое доступно на YouTube.
«Благодаря картам глубины с высоким разрешением, которые команда может разработать для реальных фотографий, художники и создатели контента теперь могут немедленно перенести свои фотографии или произведения искусства в богатый трехмерный мир», — говорит профессор компьютерных наук и директор лаборатории Ягиз Аксой. , команда которого сотрудничала с исследователями Сильвен Пэрис и Лонг Май из Adobe Research.
Инструменты позволяют художникам превращать 2D-искусство в 3D-миры
Художники со всего мира уже используют приложения, разработанные лабораторией Аксоя. Акира Сайто, визуальный художник из Японии, создает видеоролики, которые переносят зрителей в фантастические трехмерные миры, придуманные в 2D-произведениях. Для этого он комбинирует такие инструменты, как Houdini, программное обеспечение для компьютерной анимации, с картой глубины, созданной Аксоем и его командой.
Создатели творческого контента в TikTok используют исследования, чтобы выразить себя по-новому.
«Приятно видеть, как независимые художники используют нашу технологию по-своему», — говорит Аксой, чья лаборатория планирует распространить эту работу на видео и разработать новые инструменты, которые сделают карты глубины более полезными для художников.
«За последние годы мы сделали большие скачки в области компьютерного зрения и компьютерной графики, но принятие этих новых технологий искусственного интеллекта сообществом художников должно быть органичным процессом, а это требует времени».
В нашем Telegram‑канале, и группе ВК вы найдёте новости о непознанном, НЛО, мистике, научных открытиях, неизвестных исторических фактах. Подписывайтесь, чтобы ничего не пропустить.
Похожие статьи
ДРУГИЕ НОВОСТИ