Multimodal AI 'Gemini'의 성능을 어필하는 구글의 공식 영상은 가짜라는 지적

IT 2023. 12. 8. 17:02

Google이 2023년 12월 6일에 발표한 대규모 언어 모델(LLM) 'Gemini'는 문자뿐만 아니라 이미지나 영상 등도 이해하고 사용자와 상호작용할 수 있는 multimodality가 큰 특징으로, Google가 공개한 Gemini의 성능을 보여주는 데모 영상은 큰 화제가 되었습니다. 하지만 이 영상에서 제시된 Gemini의 실현은 가짜일 가능성이 지적되었습니다.

Google’s best Gemini demo was faked | TechCrunch
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

Google's best Gemini demo was faked | TechCrunch

Google's new Gemini AI model is getting a mixed reception after its big debut yesterday, but users may have less confidence in the company's tech or

techcrunch.com

Hands-on with Gemini: Interacting with multimodal AI - YouTube
https://www.youtube.com/watch?v=UIZAiXYceBI

블룸버그의 기자인 퍼미 올슨은 “홍보담당자에 따르면 이 영상은 실시간도 음성도 아니었고 Gemini에는 영상의 정지화면과 프롬프트 입력이었으며 영상에 자막으로 프롬프트를 표시했다"고 전했습니다.

영상에서는 영상이나 화상을 보고 그대로 Gemini가 응답을 하고 있는 것처럼 보이지만, 실제로는 Gemini가 영상을 보면서 실시간으로 판단해 응답하고 있었던 것이 아니라 어디까지나 영상의 정지화면을 보고 텍스트 프롬프트를 사용하여 소통하고 있었다고 합니다. 하지만 이 입력한 텍스트 프롬프트에 대해 Google은 개발자 블로그에서 공개했습니다.

How it’s Made: Interacting with Gemini through multimodal prompting - Google for Developers
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

How it’s Made: Interacting with Gemini through multimodal prompting

Explore the capabilities of our AI model Gemini with this hands-on guide to multimodal prompting.

developers.googleblog.com

동영상의 2분 45초 부근에서 Gemini와 가위바위보를 하는 장면이 있습니다. 이 장면에서는 Gemini가 손의 모양과 움직임을 보고 "가위네요!"라고 반응했는데, 실제로는 3종류의 화상을 읽어 들인 다음에 'What do you think I'm doing? Hint: it's a game.'라고 프롬프트를 입력했습니다.

또 파란 고무의 오리에 대해서 Gemini와 대화하는 부분에 대해서는 개발자 블로그에서는 밝히지 않았지만 IT계 뉴스 사이트 TechCrunch는 불신감을 나타냈습니다.

데모 영상의 타이틀은 'Hands-on with Gemini'인데 마치 Gemini의 실동작을 나타내고 있는 것으로 오해하기 쉽다고 TechCrunch는 지적했습니다. 게다가 “아마도 Google AI의 데모는 과장되었다고 상정해야 한다"며 실제 기능이 아닌 것을 데모 영상처럼 공개한 Google을 비판했습니다.

TechCrunch는 “겉으로는 닮았지만, 이것은 같은 상호작용인 것처럼 느껴지지 않습니다. 하나는 추상적인 아이디어를 그 자리에서 포착한 직관적이고 말이 없는 평가이고, 다른 하나는 기능 제한을 나타내는, 엔지니어링되고 힌트가 많은 상호작용입니다. Gemini의 경우 전자가 아니고 후자였습니다."라고 보았습니다.

또한 TechCrunch에 따르면 Google DeepMind의 연구담당 바이스 프레지던트인 오리올 비냐르스 씨로부터 기사 공개 후 “이 영상은 Gemini로 구축된 multimodality의 사용자 경험이 어떤 것이 될 수 있는지를 보여주고 있고 개발자에게 영감을 주기 위해 이 영상을 만들었다"고 밝혔습니다.

'IT' 카테고리의 다른 글

분산형 프로토콜 'Nostr' 위에 구축된 동영상 공유 사이트 'Flare'가 등장...YouTube와 달리 계정동결하거나 수익화 중지 불가 (0)	2023.12.29
양자얽힘을 이용하여 물리적으로 정보를 전송하지 않고 이미지를 '텔레포트' (0)	2023.12.28
아이폰을 훔쳐 30만 달러를 벌은 스마트폰 도둑이 수법과 대책을 설명 (0)	2023.12.27
아마존의 위성인터넷 'Project Kuiper'가 적외선 레이저를 사용해 지상의 광섬유 케이블보다 약 30% 빠른 데이터 통신기술 검증에 성공 (0)	2023.12.15
스마트폰의 푸시알림으로 정부기관이 사용자를 스파이 (0)	2023.12.07
과거 최악의 해양오염을 일으킨 핵시설 '셀라필드'가 중국과 러시아와 관련된 해커들에게 해킹됐다는 보도 (0)	2023.12.06
중동의 상공에서 민간 항공기가 겪는 'GPS 공격' (0)	2023.11.23
Google의 채팅 AI 'Bard'에 그래프 생성 기능과 수학 풀이 표시 기능 등이 추가 (0)	2023.11.16

Posted by 말총머리

자유시간

Multimodal AI 'Gemini'의 성능을 어필하는 구글의 공식 영상은 가짜라는 지적

'IT' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

링크

티스토리툴바