Google이 2023년 12월 6일에 발표한 대규모 언어 모델(LLM) 'Gemini'는 문자뿐만 아니라 이미지나 영상 등도 이해하고 사용자와 상호작용할 수 있는 multimodality가 큰 특징으로, Google가 공개한 Gemini의 성능을 보여주는 데모 영상은 큰 화제가 되었습니다. 하지만 이 영상에서 제시된 Gemini의 실현은 가짜일 가능성이 지적되었습니다.

Google’s best Gemini demo was faked | TechCrunch
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

Google's best Gemini demo was faked | TechCrunch

Google's new Gemini AI model is getting a mixed reception after its big debut yesterday, but users may have less confidence in the company's tech or

techcrunch.com


Hands-on with Gemini: Interacting with multimodal AI - YouTube
https://www.youtube.com/watch?v=UIZAiXYceBI


블룸버그의 기자인 퍼미 올슨은 “홍보담당자에 따르면 이 영상은 실시간도 음성도 아니었고 Gemini에는 영상의 정지화면과 프롬프트 입력이었으며 영상에 자막으로 프롬프트를 표시했다"고 전했습니다.

영상에서는 영상이나 화상을 보고 그대로 Gemini가 응답을 하고 있는 것처럼 보이지만, 실제로는 Gemini가 영상을 보면서 실시간으로 판단해 응답하고 있었던 것이 아니라 어디까지나 영상의 정지화면을 보고 텍스트 프롬프트를 사용하여 소통하고 있었다고 합니다. 하지만 이 입력한 텍스트 프롬프트에 대해 Google은 개발자 블로그에서 공개했습니다.

How it’s Made: Interacting with Gemini through multimodal prompting - Google for Developers
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

How it’s Made: Interacting with Gemini through multimodal prompting

Explore the capabilities of our AI model Gemini with this hands-on guide to multimodal prompting.

developers.googleblog.com


동영상의 2분 45초 부근에서 Gemini와 가위바위보를 하는 장면이 있습니다. 이 장면에서는 Gemini가 손의 모양과 움직임을 보고 "가위네요!"라고 반응했는데, 실제로는 3종류의 화상을 읽어 들인 다음에 'What do you think I'm doing? Hint: it's a game.'라고 프롬프트를 입력했습니다.


또 파란 고무의 오리에 대해서 Gemini와 대화하는 부분에 대해서는 개발자 블로그에서는 밝히지 않았지만 IT계 뉴스 사이트 TechCrunch는 불신감을 나타냈습니다.


데모 영상의 타이틀은 'Hands-on with Gemini'인데 마치 Gemini의 실동작을 나타내고 있는 것으로 오해하기 쉽다고 TechCrunch는 지적했습니다. 게다가 “아마도 Google AI의 데모는 과장되었다고 상정해야 한다"며 실제 기능이 아닌 것을 데모 영상처럼 공개한 Google을 비판했습니다.

TechCrunch는 “겉으로는 닮았지만, 이것은 같은 상호작용인 것처럼 느껴지지 않습니다. 하나는 추상적인 아이디어를 그 자리에서 포착한 직관적이고 말이 없는 평가이고, 다른 하나는 기능 제한을 나타내는, 엔지니어링되고 힌트가 많은 상호작용입니다. Gemini의 경우 전자가 아니고 후자였습니다."라고 보았습니다.

또한 TechCrunch에 따르면 Google DeepMind의 연구담당 바이스 프레지던트인 오리올 비냐르스 씨로부터 기사 공개 후 “이 영상은 Gemini로 구축된 multimodality의 사용자 경험이 어떤 것이 될 수 있는지를 보여주고 있고 개발자에게 영감을 주기 위해 이 영상을 만들었다"고 밝혔습니다.

Posted by 말총머리
,