AIワンダーランド

AIエンジニアの個人開発ブログ

動画生成AI比較_240720

更新日:2024年7月20日

概要

動画生成AI関連のLT資料です。

 

 

環境

環境:Winows11、メモリ64GB、GPU GeForce RTX4080 Laptop 12GB

Python : 3.10.6、CUDA : 11.8、torch : 2.0.1+cu118

 

手順

 

1.EazyAnimate

誰でもプロンプトで高解像度でちょい長めな動画を簡単に生成できるAIツール

 

https://github.com/aigc-apps/EasyAnimate/


GoogleColab T4 で試すも環境エラーで進めず

 

HagingFaceで実行できました。

https://huggingface.co/spaces/alibaba-pai/EasyAnimate

 

2秒の動画で1分10秒

【プロンプト】

未来のAI研究所で、複数のAIロボが働いている。その中で一人の美少女が楽しそうに仕事をしている。

In a futuristic AI research lab, multiple AI robots are working. Among them, a cheerful girl is enjoying her work. The lab is filled with advanced technology, glowing screens, and robotic arms performing various tasks. The girl has a joyful expression, surrounded by the bustling activity of the robots.

youtu.be

 

【イラスト + プロンプト】

Very detailed, beautiful face and eyes of a young girl swinging a Japanese sword down from a dynamic angle.

 

元画像:StabuleDiffusionで生成

youtu.be

 

2.画像から動画生成

AnimeGANv3  2022/07
MagicAnimates  2023/11
StreamDiffusion  2023/12
StableDiffusion AnimateDiff v3 2023/12

 

MagicAnimates

モーション動画を自分で用意すれば

 

1枚の写真・イラストから好きな動きの動画を生成できる。

 

・Gitからローカル構築可能

・公式にGradioのWEBUIが公開されてた

 

動画:4秒

処理時間:5分

666KB

youtu.be

 

StreamDiffusion

https://github.com/cumulo-autumn/StreamDiffusion/tree/main

動画から画像生成を繰り返し

アニメのように見せる。

 

gitからクローンして環境構築(GPU必要、エンジニア向け)

 

※Windowsで動かすなら

Half型のテンソルをfloat32型(32ビット浮動小数点)

に変換する修正が必要です。

 

youtu.be

 

3.画像から3Dモデル生成

Era3D

https://github.com/pengHTYX/Era3D?tab=readme-ov-file

https://huggingface.co/spaces/pengHTYX/Era3D_MV_demo

写真1枚 4分で生成 イラストは厳しい

 

 

1枚の写真から別角度を生成して3D化します。

 

 

4.長編動画生成

①OpenAIのSora:未公開 24/2/15に発表

Open-Sora,Open-Sora Plan:

A100などVRAM80GB必要らしいので未着手

60秒

 

②Dream machine:24/6/12公開

https://lumalabs.ai/dream-machine

5秒、1日5回、30回まで無料

 

③Runway Gen-2 :23/6/7 Gen-3:24/7/1公開

https://app.runwayml.com/login

10秒

 

https://shift-ai.co.jp/blog/3817/

 

Dream machine

【プロンプト】

未来のAI研究所で、複数のAIロボが働いている。その中で一人の美少女が楽しそうに仕事をしている。

In a futuristic AI research lab, multiple AI robots are working. Among them, a cheerful girl is enjoying her work. The lab is filled with advanced technology, glowing screens, and robotic arms performing various tasks. The girl has a joyful expression, surrounded by the bustling activity of the robots.

 

5秒の動画、3.4MB

生成時間:2分30秒

youtu.be

 

【プロンプト】

先ほどより短い

暴風雨の中、心配そうな表情を浮かべる若い船員の女性の極端なクローズアップ映像。

Extreme closeup footage of a young sailor woman with a concerned expression during a rainstorm.

 

5秒の動画、3.3MB

生成時間:2分30秒

youtu.be

 

【プロンプト + イラスト】

友人と開発中のゲームアプリのイメージイラストから動画生成

ちょっとしたプロモーションムービーとして使えそう

 

AIを使った近未来的なコミュニケーションアプリを紹介する動画。このアプリはミッションをAIが作成し、それを若者が楽しんでいる様子。

A video introducing a futuristic communication app using AI. The app shows AI creating missions and young people enjoying them.

 

5秒の動画、4.8MB 画像から生成だと重くなる?

生成時間:2分58秒

youtu.be

 

Runway Gen-2

 

【プロンプト】さきほどのDream machineと同じ

未来のAI研究所で、複数のAIロボが働いている。その中で一人の美少女が楽しそうに仕事をしている。

In a futuristic AI research lab, multiple AI robots are working. Among them, a cheerful girl is enjoying her work. The lab is filled with advanced technology, glowing screens, and robotic arms performing various tasks. The girl has a joyful expression, surrounded by the bustling activity of the robots.

 

4秒の動画、2.0MB

生成時間:2分20秒

youtu.be

 

【プロンプト + 画像】

日本の街を散歩する高齢の女性。街は近未来的でにぎやかな雰囲気。

An elderly woman walking through a Japanese city. The cityscape is futuristic and bustling with activity. High-tech buildings with neon signs line the streets, and there are many people around, contributing to a lively atmosphere. The woman, dressed in traditional Japanese clothing, contrasts with the advanced surround 320文字制限

youtu.be

 

Runway Gen-3

有料なので試せず

デモ動画

www.youtube.com

 

5.動画拡張、音声生成

動画拡張ExVideo

https://ar5iv.labs.arxiv.org/html/2406.14130

https://github.com/modelscope/DiffSynth-Studio

 

ビデオ生成モデルの能力を拡張するための新しい手法であり、特にStable Video Diffusionモデルを対象としています。この手法は、パラメータ効率の高いポストチューニングと呼ばれ、追加の計算コストを最小限に抑えながら、モデルの生成可能なコンテンツの時間的長さを延長します。

 

こちらは未検証です。

一部の動画生成有料サービスで実装されてそうですね。

 

FolyCrafter

https://github.com/open-mmlab/foleycrafter

https://huggingface.co/spaces/ymzhang319/FoleyCrafter

動画にそれっぽい音声を生成して追加

 

デモ:無音の動画から、雷の音が追加された

youtu.be

 

・5秒の動画で5秒 →短過ぎてだめでした。

・音楽とかはまだ無理。波の音や車の音など正解がある音だけっぽい。

 

14秒の動画で2分 で音声動画が生成されました。

適当に拾ってきた海の動画を入れたら、波の音が入りました。

youtu.be

 

【今後】

現在は1場面のショートに限定されているが

すでにSoraが1分の動画生成ができている。

 

5分10分の動画生成はすぐできるようになりそう。

1時間超える長編はプロンプトで生成できるのか??

 

→映画、アニメ、エンタメ業界・クリエイターへのインパクト大きそうですね

 

 

以上、動画生成AI比較_240720 でした。

ではまた。