Google이 동영상의 고밀도 캡션을 고정밀도로 처리하는 'Vid2Seq'를 발표

IT 2023. 3. 21. 13:07

by Avel Chuklanov source:https://unsplash.com/ja/%E5%86%99%E7%9C%9F/Hn3S90f6aak

Google의 연구부문인 Google Research가 동영상에 고밀도 캡션을 붙일 수 있는 시각언어 모델인 'Vid2Seq'를 공개했습니다.

Vid2Seq: a pretrained visual language model for describing multi-event videos – Google AI Blog
https://ai.googleblog.com/2023/03/vid2seq-pretrained-visual-language.html

Vid2Seq: a pretrained visual language model for describing multi-event videos

Posted by Antoine Yang, Student Researcher, and Arsha Nagrani, Research Scientist, Google Research, Perception team Videos have become an increasingly important part of our daily lives, spanning fields such as entertainment, education, and communication. U

ai.googleblog.com

동영상은 엔터테인먼트 분야뿐만 아니라 교육과 커뮤니케이션 등 다양한 분야에 걸쳐 우리의 일상생활에서 점점 중요한 역할을 담당하고 있습니다. 다만 동영상은 다른 타이밍에 복수의 이벤트가 발생하기 때문에 동영상의 내용을 AI에게 이해시키는 것은 매우 어렵습니다. 예를 들어 개썰매를 소개하는 동영상의 경우 '개가 썰매를 당긴다'는 긴 이벤트와 '개를 썰매에 연결한다'는 짧은 이벤트가 포함됩니다.

이러한 동영상의 내용을 AI에 이해시키기 위한 하나의 수법으로서 채용되고 있는 것이 고밀도 캡션입니다. Google Research는 몇 분 동안 동영상의 모든 이벤트를 시간에 맞추어 설명하며 짧은 동영상을 한 장에 설명하는 단문 캡션이나 스탠다드 비디오 캡션과는 다르다고 설명합니다.

고밀도 캡션은 시각 및 청각에 장애가 있는 사람이 동영상을 시청할 수 있게 하고 동영상의 챕터를 자동으로 생성하거나 대규모 데이터베이스 내의 동영상에서의 모멘트 검색을 개선하는 등 폭넓은 용도로 활용을 기대할 수 있습니다.

그러나 기존의 고밀도 캡션 기술은 고도로 전문화된 작업별 구성요소를 필요로 해서 강력한 기초모델에 통합하기가 어렵고 수동으로 주석 처리된 데이터세트만 사용하여 학습해서 입수가 매우 곤란하고 확장성이 있는 솔루션이라고는 말할 수 없는 등의 몇 가지 문제를 안고 있다고 합니다.

이에 Google Research가 개발한 것이 'Vid2Seq'입니다. Vid2Seq는 언어모델을 특별한 시간토큰으로 보강하여 동일한 출력 시퀀스에서 이벤트 경계와 텍스트 캡션을 원활하게 예측할 수 있습니다.

Vid2Seq는 고밀도 캡션을 시퀀스2시퀀스의 문제로 공식화하고 특별한 시간토큰을 사용하여 모델이 텍스트의 의미정보와 동영상의 각 텍스트의 근거가 되는 시간적 현지화 정보를 모두 포함하는 토큰을 원활하게 이해하고 생성할 수 있도록 한 모델이라고 합니다.

연구팀은 Vid2Seq를 사전 학습시키기 위해 라벨 없는 내레이션 동영상을 활용했습니다. 문자화된 음성의 문장을 임의의 이벤트 경계로서 재정의해 문자화된 문장을 임의의 이벤트 캡션으로서 사용합니다. 수백만 개의 내레이션 동영상으로 사전 학습된 Vid2Seq는 YouCook2, ViTT, ActivityNet Captions 등의 고밀도 캡션 벤치마크에서 높은 점수를 기록했다고 합니다. 또한 Vid2Seq는 몇 장의 고밀도 캡션 설정, 동영상 단락 캡션 작업, 스탠다드 비디오 캡션 작업으로 잘 일반화할 수 있습니다.

Vid2Seq에 의한 고밀도 캡션의 사례를 살펴보면 동영상의 1~9초에 '남성이 개를 썰매에 연결하고 있다', 20~50초에 '개가 썰매를 당기고 있다', 45초와 49초에 '개가 대기하고 있다' 등 장면별로 다른 캡션을 붙일 수 있습니다.

Vid2Seq의 코드는 GitHub에 게시되어 있습니다.

scenic/scenic/projects/vid2seq at main · google-research/scenic · GitHub
https://github.com/google-research/scenic/tree/main/scenic/projects/vid2seq

GitHub - google-research/scenic: Scenic: A Jax Library for Computer Vision Research and Beyond

Scenic: A Jax Library for Computer Vision Research and Beyond - GitHub - google-research/scenic: Scenic: A Jax Library for Computer Vision Research and Beyond

github.com

덧붙여 Vid2Seq는 2023년 6월에 개최 예정인 CVPR 2023에서 상세내용이 발표될 예정입니다.

'IT' 카테고리의 다른 글

Google이 게재 중단한 쇼핑앱에 'Android의 제로데이 취약점을 겨냥한 악성코드'가 포함 (0)	2023.03.30
환자의 진단기록을 컴퓨터가 체크하는 시스템으로 보험회사가 보험금 지불을 대량으로 거부 (0)	2023.03.28
웹사이트 사용자를 식별하는 '핑거프린트'는 생각보다 더 지독하다 (0)	2023.03.23
브라우저로 AI용 슈퍼컴퓨터에 액세스할 수 있는 'DGX Cloud'를 NVIDIA가 발표 (0)	2023.03.22
Google Pixel의 스크린샷 편집기능에 취약점...개인정보 유출로 이어질 위험도 (0)	2023.03.20
사법시험을 상위 10%로 통과한 GPT-4를 발표 (0)	2023.03.17
Starlink가 전세계 어디서나 인터넷에 접속할 수 있는 'Starlink Roam'을 개시 (0)	2023.03.17
DeFi를 노린 'Flash Loan 공격'으로 해커가 가상화폐 2600억 원 상당을 빼앗는 데 성공 (0)	2023.03.14

Posted by 말총머리

자유시간

Google이 동영상의 고밀도 캡션을 고정밀도로 처리하는 'Vid2Seq'를 발표

'IT' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

링크

티스토리툴바