인간은 사진을 보고 그것이 어떤 장면인지를 설명할 수 있지만, 컴퓨터에게는 매우 어려운 일입니다만, Google의 연구진이 기계학습 시스템을 사용하여 한 번 사진을 인식하면 자동으로 그 상황을 설명하는 캡션을 생성할 수 있는, 마치 인간 같은 능력을 가진 시스템의 개발에 성공했다고 합니다.
Research Blog : A picture is worth a thousand (coherent) words : building a natural description of images
http://googleresearch.blogspot.jp/2014/11/a-picture-is-worth-thousand-coherent.html
최근에는 물체의 검출 및 분류, 라벨링 등의 기술이 크게 향상하고 있습니다. 그러나 인간처럼 복잡한 상황을 간략하게 설명하려면 깊은 표현의 폭과 다양한 물체를 정확하게 인식하고 그것을 자연스러운 언어로 표현해야 합니다.
사람의 눈 대신 이미지를 인식하여 물체를 인식하고 위치를 결정 · 분류 · 측정 · 검사 등을 수행하는 시스템을 머신 비전이라고 하며 '기계의 눈'을 만들기 위한 연구 분야라고도 합니다. 그런 머신 비전의 최첨단 기술과 복잡한 상황도 적절하게 설명할 수 있는 자연언어 처리시스템이 결합하면 훌륭한 시스템이 될 것입니다.
이 아이디어를 실현하기 위해 필수불가결한 것이 인간의 뇌 기능을 계산기상에 시뮬레이션하는 신경망의 파생인 Recurrent neural network(RNN)입니다. 이 RNN을 이용하여 이미지에서 문장이나 단어를 생성하고, 사진에 캡션을 붙입니다.
먼저 '심층회선신경망(CNN)'을 이용한 영상인식 알고리즘으로 사진에 찍혀있는 상황을 분석합니다. 일반적 CNN을 사용한 영상인식 알고리즘의 경우, CNN의 마지막 층에서는 사진 속 물체가 무엇인지를 대략적인 전망으로 결정하기 위한 작업이 진행된다고 합니다. Google이 만든 시스템은 마지막 층을 제거하고 대신에 언어 생성을 위한 RNN을 추가함으로써 대량으로 생성된 이미지에 대한 정보가 RNN에 공급된다고 합니다. 이렇게 하면 기존의 영상인식 알고리즘에 의해 생성된 데이터를 언어 생성을 위한 RNN에 활용할 수 있게 된다는 것입니다.
거기에 더해 이 시스템에 직접 다양한 이미지를 인식시켜 캡션을 생성시킴으로써, 시스템은 기계학습을 통해 보다 정확한 자막을 붙일 수 있게 될 것입니다. Google의 연구팀은 여러 오픈 데이터베이스의 이미지를 처리하도록 하는 방식으로, 캡션의 질을 향상시키는 데 성공했다고 합니다.
실제로 Google 시스템이 사진을 분석하여 붙인 캡션은 다음과 같습니다.
◆ 성공 사례
'A person riding a motorcycle on a dirt road (흙길에서 오토바이를 타는 사람)'
'A herd of elephants walking across a dry grass field (마른 초원을 걷는 코끼리의 무리)'
◆ 작은 실수가 발생한 캡션
'Two dogs play in the grass (잔디에서 노는 두 마리의 개)' 실제로는 3마리
'A close up of a cat laying on a couch (소파에서 자는 고양이의 클로즈업 사진)' 실제로는 클로즈업되지 않았습니다
◆ 상황 자체는 정답에 가까우나 단어 단위에 오류가 발생
'A red motorcycle parked on the side of the road. (길가에 주차된 빨간색 오토바이)' 오토바이 색깔은 분홍색이고 주차하고 있는 장소는 주차장
◆ 실패 사례
'A refrigerator filled with lots of food and drinks (냉장고가 음식과 음료로 가득)' 전혀 별개
놀라운 영상인식 시스템과 자연언어 처리시스템이 결합된 기술인 이 시스템은 미래에 시각장애가 있는 사람이 영상을 보는 데 도움을 주거나 인터넷 회선 속도가 느린 곳에서 사진보다 먼저 텍스트로 상황 설명을 보냄으로써 이미지를 보완하거나 Google 이미지의 검색 정확도를 향상시키는 데에도 큰 도움이 될 것으로 보여지고 있습니다.
'IT' 카테고리의 다른 글
"Facebook 직원이 자신의 Instagram 계정을 부정하게 훔쳐 모든 데이터가 삭제했다"는 주장이 화제로 떠올라 (0) | 2020.09.28 |
---|---|
회선 전환이 간단한 'eSIM'...통신서비스 경쟁의 기폭제 (0) | 2020.09.26 |
인터넷 검열에 대응하는 새로운 앱이 등장...블록을 감지하여 우회가 가능 (0) | 2020.09.26 |
'모바일결제 방법이 신용카드보다 안전'...모바일결제를 확산시키려면 어떻게 하면 좋을까? (0) | 2020.09.26 |
"Facebook은 담배 산업에서 배웠다"며 그 유해성과 중독성을 전 디렉터가 폭로 (0) | 2020.09.26 |
보안카메라가 드론처럼 집안을 날아다니는 'Ring Always Home Cam'가 Amazon 산하 Ring에서 등장 (0) | 2020.09.25 |
의료시스템에 내장된 알고리즘의 인종 편견을 없애는 것은 매우 난해하다 (0) | 2020.09.24 |
다크웹의 불법 업자 179명을 체포..."다크웹의 황금시대는 끝났다"고 당국이 성명을 발표 (0) | 2020.09.23 |