Прорив у технології генерації відео за допомогою штучного інтелекту та майбутній розвиток
Нещодавніми найбільш помітними досягненнями в галузі ШІ стали значні прориви в технології генерації мультимедійних відео. Ця технологія еволюціонувала від простої генерації відео на основі тексту до комплексної технології генерації, що об'єднує текст, зображення та аудіо.
Декілька помітних випадків цього технологічного прориву включають:
Відкритий фреймворк EX-4D, розроблений однією технологічною компанією, може перетворити звичайне монокулярне відео на 4D-контент з вільним кутом огляду, що користується популярністю у 70,7% користувачів. Ця технологія дозволяє ШІ автоматично генерувати ефект перегляду з будь-якого кута, що раніше вимагало професійної команди 3D-моделювання.
Платформа штучного інтелекту запустила функцію "Художнє уявлення", яка стверджує, що може створити 10-секундне відео "кінематографічної" якості на основі одного зображення. Проте справжність цієї заяви ще потребує подальшої перевірки.
Технологія Veo, розроблена одним з AI-дослідницьких інститутів, здатна здійснювати синхронне створення 4K відео та звуків навколишнього середовища. Ключовим моментом цієї технології є досягнення справжнього семантичного рівня відповідності звуку та зображення, що дозволяє подолати проблему синхронізації в складних сценах.
Технологія ContentV певної платформи коротких відео має 80 мільярдів параметрів, може генерувати відео 1080p за 2,3 секунди, вартість становить 3,67 юанів/5 секунд. Хоча контроль витрат непоганий, якість генерації в складних сценах ще потребує покращення.
Ці технологічні досягнення мають велике значення в аспектах якості відео, витрат на його створення та варіантів застосування. З технічної точки зору, складність генерації мультимодальних відео є експоненційною, оскільки включає в себе генерування зображень, часову узгодженість, синхронізацію аудіо та просторову узгодженість 3D. В даний час ці складні завдання реалізуються завдяки модульному розподілу та співпраці великих моделей.
Щодо витрат, оптимізація архітектури висновків, включаючи ієрархічні стратегії генерації, механізми повторного використання кешу та динамічне розподілення ресурсів, значно знизила витрати на генерацію. Це робить генерацію відео за допомогою ШІ більш вигідною з економічної точки зору.
Вплив на сфери застосування також є дуже значним. Традиційне відеовиробництво є капіталомісткою галуззю, а технології штучного інтелекту спростили цей процес до введення підказок і кількох хвилин очікування, при цьому забезпечуючи перспективи та ефекти, які важко досягти традиційною зйомкою. Це може призвести до перезавантаження економіки творців, зосередивши увагу з технічних та фінансових бар'єрів на творчих і естетичних здібностях.
Ці зміни тісно пов'язані з Web3 AI:
Зміна структури попиту на обчислювальну потужність може збільшити попит на розподілену неактивну обчислювальну потужність, а також на різні розподілені моделі тонкої настройки, алгоритми та платформи для висновків.
Потреба в маркуванні даних також зросте. Для створення професійного відео потрібні точні описи сцен, референсні зображення, аудіостиль, траєкторії руху камери та умови освітлення. Механізми стимулювання Web3 можуть заохотити фахівців надавати високоякісні матеріали даних.
Технології штучного інтелекту переходять від централізованого масштабного розподілу ресурсів до модульної співпраці, що саме по собі є свідченням нових вимог до децентралізованих платформ. У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть сформувати самопідсилювальне позитивне коло, сприяючи глибокій інтеграції Web3 AI та Web2 AI.
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Новий прорив у технології генерації відео за допомогою ШІ: Web3 та економіка творчості стикаються з реконструкцією
Прорив у технології генерації відео за допомогою штучного інтелекту та майбутній розвиток
Нещодавніми найбільш помітними досягненнями в галузі ШІ стали значні прориви в технології генерації мультимедійних відео. Ця технологія еволюціонувала від простої генерації відео на основі тексту до комплексної технології генерації, що об'єднує текст, зображення та аудіо.
Декілька помітних випадків цього технологічного прориву включають:
Відкритий фреймворк EX-4D, розроблений однією технологічною компанією, може перетворити звичайне монокулярне відео на 4D-контент з вільним кутом огляду, що користується популярністю у 70,7% користувачів. Ця технологія дозволяє ШІ автоматично генерувати ефект перегляду з будь-якого кута, що раніше вимагало професійної команди 3D-моделювання.
Платформа штучного інтелекту запустила функцію "Художнє уявлення", яка стверджує, що може створити 10-секундне відео "кінематографічної" якості на основі одного зображення. Проте справжність цієї заяви ще потребує подальшої перевірки.
Технологія Veo, розроблена одним з AI-дослідницьких інститутів, здатна здійснювати синхронне створення 4K відео та звуків навколишнього середовища. Ключовим моментом цієї технології є досягнення справжнього семантичного рівня відповідності звуку та зображення, що дозволяє подолати проблему синхронізації в складних сценах.
Технологія ContentV певної платформи коротких відео має 80 мільярдів параметрів, може генерувати відео 1080p за 2,3 секунди, вартість становить 3,67 юанів/5 секунд. Хоча контроль витрат непоганий, якість генерації в складних сценах ще потребує покращення.
Ці технологічні досягнення мають велике значення в аспектах якості відео, витрат на його створення та варіантів застосування. З технічної точки зору, складність генерації мультимодальних відео є експоненційною, оскільки включає в себе генерування зображень, часову узгодженість, синхронізацію аудіо та просторову узгодженість 3D. В даний час ці складні завдання реалізуються завдяки модульному розподілу та співпраці великих моделей.
Щодо витрат, оптимізація архітектури висновків, включаючи ієрархічні стратегії генерації, механізми повторного використання кешу та динамічне розподілення ресурсів, значно знизила витрати на генерацію. Це робить генерацію відео за допомогою ШІ більш вигідною з економічної точки зору.
Вплив на сфери застосування також є дуже значним. Традиційне відеовиробництво є капіталомісткою галуззю, а технології штучного інтелекту спростили цей процес до введення підказок і кількох хвилин очікування, при цьому забезпечуючи перспективи та ефекти, які важко досягти традиційною зйомкою. Це може призвести до перезавантаження економіки творців, зосередивши увагу з технічних та фінансових бар'єрів на творчих і естетичних здібностях.
Ці зміни тісно пов'язані з Web3 AI:
Зміна структури попиту на обчислювальну потужність може збільшити попит на розподілену неактивну обчислювальну потужність, а також на різні розподілені моделі тонкої настройки, алгоритми та платформи для висновків.
Потреба в маркуванні даних також зросте. Для створення професійного відео потрібні точні описи сцен, референсні зображення, аудіостиль, траєкторії руху камери та умови освітлення. Механізми стимулювання Web3 можуть заохотити фахівців надавати високоякісні матеріали даних.
Технології штучного інтелекту переходять від централізованого масштабного розподілу ресурсів до модульної співпраці, що саме по собі є свідченням нових вимог до децентралізованих платформ. У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть сформувати самопідсилювальне позитивне коло, сприяючи глибокій інтеграції Web3 AI та Web2 AI.