Microsoft는 '인간 이상의 정확도로 이미지에 설명을 추가하는 AI'를 Word 및 Outlook의 서비스 개선에 사용할 예정

IT 2020. 10. 15. 16:25

Microsoft가 인간보다 정확한 설명을 이미지에 추가할 수 있는 새로운 '캡션 생성 인공지능(AI) 모델'을 구축했다고 공식블로그에서 발표했습니다.

What 's that? Microsoft 's latest breakthrough, now in Azure AI, describes images as well as people do - The AI Blog
https://blogs.microsoft.com/ai/azure-image-captioning/

What’s that? Microsoft’s latest breakthrough, now in Azure AI, describes images as well as people do - The AI Blog

Novel object captioning Image captioning is a core challenge in the discipline of computer vision, one that requires an AI system to understand and describe the salient content, or action, in an image, explained Lijuan Wang, a principal research manager in

blogs.microsoft.com

Microsoft 's new image-captioning AI will help accessibility in Word, Outlook and beyond - The Verge
https://www.theverge.com/2020/10/14/21514405/image-captioning-seeing-ai-microsoft-algorithm-word-powerpoint-outlook

Microsoft’s new image-captioning AI will help accessibility in Word, Outlook, and beyond

Say what you see, courtesy of AI

www.theverge.com

Microsoft에서 기술펠로우 CTO인 Xuedong Huang 씨는 캡션 생성 도구에 대해 "사진에 캡션을 붙이는 시스템은 다양한 서비스를 가능하게 하는 핵심 컴퓨터 비전 기능 중 하나입니다."라고 설명합니다.

Microsoft가 새롭게 구축한 캡션 생성 AI모델은 Azure AI 서비스의 일부인 Azure Cognitive Services의 컴퓨터 비전 오퍼링을 통해 사용할 수 있습니다. 개발자는 이 기능을 사용하여 독자적 서비스 접근성을 향상시키는 것도 가능합니다. 캡션 생성 AI모델은 이미 Microsoft가 개발한 시각장애인용 카메라 앱 'Seeing AI'에 포함되어 있으며, 2020년 후반에는 Windows/macOS 버전의 Microsoft Word 및 Outlook, Windows/macOS/웹 버전의 PowerPoint에 통합될 예정입니다.

Microsoft 캡션 생성 AI모델은 검색엔진에 표시되는 이미지부터 PowerPoint에 포함된 사진에 이르기까지 모든 사진에 캡션을 추가할 수 있습니다. Microsoft에서 AI 플랫폼 그룹의 소프트웨어 엔지니어링 매니저인 Saqib Shaikh 씨는 "사진에 캡션을 추가하는 기능을 사용하여 웹페이지 또는 문서에 포함된 사진의 설명을 생성하는 것은 눈먼 사람이나 시력이 약한 사람에게 특히 중요합니다"고 말합니다.

Shaikh 씨가 이끄는 팀은 Seeing AI의 캡션 생성 AI모델을 통합하는 작업을 진행했다고 합니다. Seeing AI는 카메라를 통해 비춰진 대상의 캡션을 생성하고, 이를 통해 시각장애인이 눈앞에 있는 것을 파악하는 데 도움을 줄 수 있습니다. Shaikh 씨는 "이상적으로는 서류나 웹, 소셜미디어상의 모든 이미지에 캡션이 붙어있어야 합니다. 이를 통해 시각장애인이 모든 정보에 액세스할 수 있게 되어 주위와 지장없이 대화를 나눌 수 있게 됩니다.

Microsoft 연구소의 연구 매니저인 Lijuan Wang 씨는 사진 캡션은 컴퓨터 비전 분야의 중심적인 과제이며, AI가 이미지의 요소를 제대로 이해하고 설명할 필요가 있다고 설명하고 있으며, "사진 속에서 무슨 일이 일어나고 있는지를 이해해야 하고 객체와 액션의 관계를 알아야 하며, 그것을 자연 언어 문장으로 요약해 설명해야 합니다"라고 말합니다.

Microsoft가 만든 캡션 생성 AI모델은 이미지 캡션의 벤치마크인 nocaps에서 인간과 동등 이상의 점수를 내고 있습니다. 또한 nocaps는 AI모델이 훈련에 사용된 데이터세트에 포함되지 않은 이미지에 얼마나 정확한 캡션을 생성하는지 점수를 매겨 측정합니다. 캡션 생성 AI모델은 단어 태그와 결합된 이미지의 풍부한 데이터세트를 사용하여 AI모델을 사전에 교육하고, 단어 태그와 특정 객체의 매핑을 강화하고 있습니다.

Microsoft의 '단어 태그와 특정 객체의 매핑을 강화한다'는 방법에 대해 Wang 씨는 "예를 들어, 고양이 사진과 고양이라는 문자가 인쇄된 책을 이용하여 아이에게 고양이에 대해 가르치는 행위와 비슷합니다"라고 설명합니다.

미리 개별적인 단어 학습을 진행했던 AI모델은 그 다음 캡션이 가미된 이미지 데이터세트를 사용하여 트레이닝을 반복해 캡션의 정확도를 향상시켜 나가고 있습니다. 이렇게 하여 Microsoft 캡션 생성 AI는 새로운 이미지에 자연스러운 어휘를 활용하여 정확한 캡션을 생성할 수 있다고 합니다.

아래의 동영상은 실제로 Microsoft가 만든 캡션 생성 AI모델이 캡션을 생성한 사례가 정리되어 있습니다.

Microsoft AI breakthrough in automatic image captioning - YouTube
https://www.youtube.com/watch?v=ubpEUksa3v0

업계에서 널리 사용되는 다른 벤치마크를 사용하여 테스트해 본 결과, Microsoft의 새로운 캡션 생성 AI모델은 2015년 이후에 Microsoft 제품에서 사용되어 온 이미지 캡션 모델보다 2배나 뛰어나다는 결과가 나왔다고 합니다.

'IT' 카테고리의 다른 글

지구상의 인터넷 기초를 만든 '인터넷의 아버지'가 '행성 간 인터넷'에 대해 말하다 (0)	2020.10.24
해커가 트럼프 대통령의 Twitter 계정 암호를 맞추어 로그인에 성공 (0)	2020.10.23
저작권을 침해하고 있다는 이유로 Twitch가 대량의 동영상을 일괄 삭제 (0)	2020.10.21
iPhone의 Safari 등 여러 브라우저에 '어드레스바를 위장'하는 취약점이 존재 (0)	2020.10.21
Amazon이 2019년에 구입한 400만 건의 IP주소의 가격이 재무보고서 공개에 의해 밝혀져... (0)	2020.10.14
20년 전의 브라운관 모니터가 4K 액정 디스플레이보다 우월한 점이란? (0)	2020.10.12
Google이 '특정 키워드로 검색한 사용자'의 정보를 경찰에 흘린 것으로 판명 (0)	2020.10.10
스마트 스피커를 구입하기 전에 Alexa 또는 Google 어시스턴트를 사용해 보자 (0)	2020.10.09

Posted by 말총머리

자유시간

Microsoft는 '인간 이상의 정확도로 이미지에 설명을 추가하는 AI'를 Word 및 Outlook의 서비스 개선에 사용할 예정

'IT' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

링크

티스토리툴바