인공지능(AI)을 연구하는 비영리 단체인 OpenAI 가 자연언어 처리 및 이미지 생성을 결합한 AI 'DALL·E'를 발표했습니다. DALL·E는 인간과 구별이 되지 않을 만큼 정확한 문장을 생성하는 AI 'GPT-3'의 매개변수를 사용하여 문장으로 그림과 사진을 만들어 낼 수 있습니다.

DALL·E: Creating Images from Text
https://openai.com/blog/dall-e/

DALL·E: Creating Images from Text

We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.

openai.com


OpenAI debuts DALL-E for generating images from text | VentureBeat
https://venturebeat.com/2021/01/05/openai-debuts-dall-e-for-generating-images-from-text/

OpenAI debuts DALL-E for generating images from text

OpenAI today introduced DALL-E for generating images from text, and CLIP, a network trained on 400 million pairs of images and text.

venturebeat.com


OpenAI의 공식블로그는 실제로 'DALL·E에 입력한 텍스트와 DALL·E가 출력한 이미지를 공개하고 있습니다. 예를 들어 '스커트를 입고 애견과 산책하는 무의 일러스트는 이런 느낌. DALL·E는 서로 무관한 여러 텍스트 요소에서 이 세상에 존재하지 않는 이미지를 자동으로 생성할 수 있는 것이 특징입니다.


'잠옷 차림으로 오토바이를 타는 피카츄'를 입력하면 다음과 같은 그림이 생성됩니다.


출력 이미지는 일러스트뿐만 아니라 사진도 가능. 예를 들어 '아보카도와 같은 모양의 의자'라는 텍스트를 입력하면 다음과 같은 이미지가 출력됩니다. 출력된 이미지는 마치 사진같지만, DALL·E가 생성한 것으로 이러한 의자는 존재하지 않습니다.


'OpenAI라는 간판을 내건 매장 사진'을 입력하면 이런 느낌. 물론 'OpenAI'라는 간판은 현실에는 존재하지 않으며 모두 AI가 문장을 렌더링하여 네온사인과 간판을 만들어 낸 것입니다. 사진을 보면 일부는 'OpenII', 'OPEAAI'등 생성에 실패한 것도 눈에 띕니다. OpenAI에 따르면 요구되는 문자열이 길수록 이미지 생성 성공률은 낮아진다고 합니다.


이외에도 DALL·E는 지리적 지식이나 시간적인 지식에도 대응하고 있다고 합니다. 예를 들어 '샌프란시스코의 골든게이트 브리지의 사진'이라는 텍스트와 배경 이미지를 함께 입력하면 다음과 같이 골든게이트 브리지의 이미지를 자동으로 생성합니다.


또한 고양이의 사진과 함께 '입력한 이미지에 찍혀 있는 '고양이'의 스케치 이미지를 원본 이미지 아래에 표시'라는 문장을 입력하면 다음과 같이 스케치를 자동생성합니다. 스케치를 보면 상당히 흡사하게 그려진 것부터 완전히 다른 고양이를 그린 것까지 다양한 스케치가 출력됩니다.


OpenAI는 "우리는 생성모델을 포함하여 DALL·E의 처리결과가 사회에 중대하고 광범위한 영향을 미칠 수 있다고 인식하고 있습니다. 향후 DALL·E와 같은 모델이 특정 업무의 프로세스와 전문직에 미치는 경제적 영향, 바이어스의 가능성, 이 기술이 초래하는 장기적인 윤리적 문제 등의 사회적 과제와 어떻게 관련되어 있는지를 분석할 예정입니다"라고 말합니다.

'DALL·E'라는 이름은 화가 살바도르 달리와 로봇이 주인공인 장편 애니메이션 영화 'WALL·E'에서 땄다고 합니다.

Posted by 말총머리
,