'Stable Diffusion' 등의 이미지 생성 AI가 화제인 가운데 'Make A Video'나 'Phenaki' 등의 동영상 생성 AI도 잇달아 등장하고 있습니다. 새롭게 Google이 테디베어가 접시를 씻는다(a teddy bear washing dishes)라는 자연언어로 동영상을 생성하는 'Imagen Video'를 발표했습니다.

Imagen Video
https://imagen.research.google/video/

Imagen Video

High Definition Video Generation with Diffusion Models

imagen.research.google


Google은 2022년 5월에 텍스트로 고정밀 이미지를 자동으로 생성할 수 있는 AI 'Imagen'을 발표했습니다.

Imagen: Text-to-Image Diffusion Models
https://gweb-research-imagen.appspot.com/

Imagen: Text-to-Image Diffusion Models

Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of la

imagen.research.google


그리고 Google은 이번에 이미지가 아닌 약 5초간의 동영상을 생성할 수 있는 'Imagen Video'를 공개했습니다. 도대체 어떤 동영상이 생성되는지는 아래의 동영상에서 확인할 수 있습니다.

Google's NEW Text to Video AI! - Imagen Video, Text to Video Generator
https://m.youtube.com/watch?v=3oVDdl9jCxE


Imagen Video는 먼저 입력된 텍스트 프롬프트를 자연언어 처리 AI 'T5'로 처리합니다. 다음 확산모델로 영상을 생성하는 'Video Diffusion Models'가 베이스가 되는 24×48의 해상도, 초당 3프레임으로 16프레임의 영상을 생성합니다. 그리고 이것을 '시간적 초해상도(Temporal Super-Resolution)'와 '공간적 초해상도(Spatial Super-Resolution)'라는 모델로 업샘플링하여 최종적으로 1280×768의 해상도와 초당 24프레임에서 128프레임 약 5.3초의 영상을 생성합니다.


Imagen Video의 공식사이트와 SNS에는 그 밖에도 Imagen Video에서 생성한 다양한 동영상이 게재되어 있습니다.

Posted by 말총머리
,