Что такое Sora
Sora («небо» на японском) — генеративная модель для создания видео по текстовому описанию от компании OpenAI, которая пытается создавать безопасный и полезный искусственный интеллект. Другие продукты OpenAI вы уже видели: нейросеть для генерации изображений DALL-E и большая языковая модель ChatGPT. Sora генерирует ролики длиной до минуты, основываясь, как и другие продукты OpenAI, на открытых данных. Также Sora может анимировать готовые изображения.
Ролики, представленные самой компанией, действительно впечатляют: например, по запросу «маленький пушистый монстр сидит около тлеющей красной свечи» получается такая же детализированная анимация, как у Pixar. А «приближенный глаз 24-летней женщины» по реалистичности не уступает настоящему видео.
Пока модель доступна для тестирования только ограниченному кругу разработчиков, дизайнеров и креаторов, а дата релиза для остальных неизвестна. Но Сэм Альтман, основатель OpenAI, в своем твиттере бодро реагирует на запросы пользователей и генерирует видео по их промтамЗапрос для нейросети. . Некоторые ролики не обходятся без багов: например, по запросу «группа археологов достает стул» этот самый стул забавно сворачивается.
Продвинутые нейросети давно вызывают беспокойство: первые разговоры о том, что искусственный интеллект нас поработит и оставит без работы, в российском инфополе начались еще с развитием голосового помощника «Алиса», а с релизом Chat GPT только усилились. В обсуждениях Sora звучат те же вопросы: это что, теперь вокруг будут одни дипфейки? Как теперь отличить реальное видео от сгенерированного? Всех креаторов заменят нейросети, а мы останемся без работы?
Основатель и CEO FringeTech, сооснователь и CTO FlexiTech
Правда ли, что Sora — революционная разработка?
«Сейчас Sora является моделью state-of-the-art„Самой современной“: качество ее рендеров в плане реалистичности на порядок выше, чем у предшественников. Плюс она может создавать видео до минуты длиной — альтернативные модели предлагают генерации в 5–15 секунд».
«Технически создать ролик гораздо сложнее, чем изображение, поскольку нейросети требуется больше знаний об окружающем мире. Например, задача сгенерировать реалистичное яблоко простая: яблоки зеленые, а не оранжевые. Оранжевые апельсины. В случае видео нужно понимать форму, ракурсы камеры и самое сложное — помнить все кадры, которые уже были сгенерированы до этого. Это называется консистентностью видео. Именно по этой причине более ранние модели могли делать только короткие ролики, а их искусственность бросалась в глаза: формы и свет в кадре менялись.
OpenAI — закрытая компания, поэтому доступа к модели у сообщества нет. Но по скудному техническому описанию можно сделать вывод, что их техническое решение скорее эволюционное, нежели революционное. Есть небольшие улучшения с точки зрения подхода по сравнению с предыдущими решениями, но основной акцент — сбор большего количества данных для обучения, правильная его обработка и огромные вычислительные ресурсы, необходимые для такой модели. Поэтому громкие релизы типа Sora и другие продукты OpenAI, Meta и Google скорее результат гонки ресурсов, в которой пока очень мало участников».
Как Sora может изменить индустрию?
«Без сомнений, Sora станет таким же помощником, как ChatGPT и MidJourney, и даст толчок индустриям, где есть видеопродакшн. Но инструмент — это всего лишь инструмент. Многие креативные и бизнес-задачи уникальны, и для них Sora будет недостаточно. Поскольку модель закрытая, ее нельзя адаптировать под нужды бизнеса и построить вокруг нее рабочие процессы, а open-source-альтернативы пока намного хуже по качеству».
Что стоит ждать вслед за Sora?
«На мой взгляд, основная ценность релиза Sora — это прецедент: показать, что видео можно генерировать качественно уже сейчас, и известные архитектуры нейронных сетей могут с этой технологией справиться. Вместе с этим появится и рынок. А дальше все в руках разработчиков — уже сейчас публикуются сотни статей в сутки о новых подходах, и, используя их, можно добиться схожего качества видео и построить целые продакшн-студии, которые автоматизируют видеомейкинг с использованием AI. Ровно так было и с ChatGPT: сейчас существуют модели, способные качественнее и небольшими ресурсами решать уникальные креативные и бизнес-задачи, которые обычному ChatGPT недоступны».
Креативный режиссер @kiselevatut, основатель агентства Fine
Как нейросети уже используются в создании видео?
«Я владею видеопродакшном, и мы используем нейросети практически в каждом проекте. Где‑то пишем мозговой штурм с помощью ChatGPT, где‑то подбираем дополнительные кадры или модернизируем их с помощью нейросетей».
«Раньше мы склеивали кинопленку, это называлось монтажом. Потом пришли компьютерные программы, помогающие склеивать отснятый материал, который сначала был оцифрован. Потом этот материал снимался на цифру. Точно так же нас ждет полноценная интеграция нейросетей в процесс производства видео.
AI сильно упрощают и ускоряют работу. Например, сборка и разводка подкаста по камерам могла занимать несколько часов, а нейросеть AutoPod делает это за три минуты. Или Adobe Firefly — с помощью нее можно заменять объекты на изображении в Photoshop. Мы уже пользуемся нейросетями, которые генерируют видео по текстовому запросу или анимируют статичный кадр, — Gen2 и Pika. Предшественники Sora отлично работали с пейзажами или неодушевленными объектами, но очень плохо с лицами и статичными предметами, которые могли произвольно менять положение в кадре, переворачиваться или исчезать, нарушая режиссерскую концепцию».
Может ли Sora вытеснить настоящих креаторов?
«Я думаю, когда еще появился Midjourney, были опасения, что нейросети заменят дизайнеров, контент-мейкеров и прочих. Да, Sora может создавать видео с нуля, но она не может выступать заказчиком. Поэтому если какие‑то компетенции креаторов Sora может заменить, то самих креаторов — нет. Просто их компетенции со временем будут меняться. Больше времени нужно будет уделять написанию болеее точного запроса, чтобы получить классный результат».
«Sora не сможет заменить и полноценную съемочную команду. Технология генерации видео по тексту не гарантирует, что вы можете получить одну и ту же девушку два раза. Нельзя показать ее крупным планом, а потом издалека: скорее всего, у вас будут просто очень две похожие девушки, и получится киноляп. Это лишает возможности создавать единый сюжет и раскадровку.
Рендеры Sora очень похожи на стоковые видео — и если кого она и сможет заменить, так это стокеров, которые снимают и продают свои работы для видеобанков. Вместо того чтобы платить сотни долларов за использование кадров, можно сгенерировать такой же и разбавить свой видеоряд или создать безликую коммерческую историю».
А может ли технология Sora использоваться во вред? И что там с дипфейками?
«Я выступаю за то, что технологии — это благо. Но, естественно, всякие скам-проекты могут использовать их со злым умыслом — для дипфейков или порноместиРазмещение в публичном поле интимных фото или видео без согласия лица, изображенного на них, в целях мести. . Но, по опыту других нейросетей, сами разработчики внедряют в код цензор, и с большой вероятностью вы не сможете сгенерировать что‑то сексуальное. Даже если вы напишете такой промт, нейросеть выдаст ошибку.
Технология дипфейков — photo-to-video, когда на готовое видео накладывается чужое лицо. А Sora работает по принципу text-to-video и создает ролик с нуля и, как заявляли создатели, не предусмотрена для создания дипфейков. Плюс дипфейки с политиками делать легче, нежели с обычными людьми: нейросеть компонует изображения из интернета, а фотографий политиков очень много. Midjorney, например, закрыла доступ к бесплатному использованию, после того как очень много людей стало генерировать очень реалистичные изображения с Дональдом Трампом.
За счет таких фейков технология может повлиять на политику. Уже сейчас мы используем Digital Avatar, которому можно написать текст, а он воспроизведет его с вашим лицом за вас. Я думаю, что, для того чтобы не погрузиться в хаос в ближайшее время, страны будут продумывать регулирование, может, введут уникальные цифровые токены, которые будут маркировать реальные и сгенерированные видео. Например, в тиктоке ролики, созданные при участии нейросетей, уже помечаются как „AI-generated content“. Нам просто нужно научиться с этим жить — как с частью цифровой гигиены нового поколения».