Google과 같은 검색엔진은 인공지능(AI)을 이용하여 최적의 검색결과를 표시한다고 생각하는 사람도 많을 것입니다만, 실제로는 AI의 분석보다 다양한 '메타데이터'가 중시되고 있습니다. 이에 대해 소프트웨어 개발자 Cal Paterson 씨가 설명합니다.

We were promised Strong AI, but instead we got metadata analysis
https://calpaterson.com/metadata.html

We were promised Strong AI, but instead we got metadata analysis

How simple structured data trumps clever machine learning

calpaterson.com


1990년대 후반에는 미래의 검색엔진은 AI를 사용하여 모든 웹페이지를 검색하고 내용을 이해하여 최적의 검색결과를 표시할 수 있게 될 것으로 기대되고 있었습니다. 그러나 현시점에서도 Google은 AI를 사용하여 모든 페이지를 분석하는 것이 아니라 웹사이트의 관리자가 제공하는 메타데이터를 알고리즘에 반영하고 있습니다.

Google은 항상 웹 전체를 크롤링하여 정보를 수집하고 있지만 일반적인 크롤링으로는 발견할 수 없는 웹사이트가 많이 있습니다. 따라서 웹사이트 관리자가 작성하는 페이지 목록인 '사이트맵'을 이용하여 Google은 크롤링해야 할 URL을 파악한다고 Paterson 씨는 설명합니다.

검색엔진을 위한 사이트맵은 XML로 기술되어 있으며, 사이트의 각 페이지와 상대적인 중요성, 페이지가 업데이트되는 빈도, 사이트 내의 동영상 파일 등의 정보가 포함되어 있습니다. Google에서는 크롤링할 때 이 사이트맵에 따라 고도의 크롤링을 실시하고 있다고 합니다.


검색엔진이 최적의 검색결과를 표시하려면 크롤링에서 찾은 웹페이지에 기재되어 있는 내용을 이해하고 표시의 우선순위를 결정해야 합니다. 방대한 페이지의 내용을 파악하기 위해 AI가 사용되고 있다고 기대하는 사람도 있을지도 모릅니다만, 여기에서도 실제로는 웹사이트에서 제공되는 메타데이터를 사용하고 있다고 합니다.

Google은 페이지의 텍스트 분석도 실시하고 있지만, Google이 다른 검색엔진보다 우위에 설 수 있었던 이유는 뛰어난 자연언어처리가 아닙니다. Google은 웹페이지의 중요도를 결정하기 위해 사용하는 알고리즘인 페이지 랭크는 학술 논문이 인용 수를 기준으로 평가되는 점에 영감을 받아 백링크를 순위결정 요소에 사용하는 수법을 사용했습니다.

백링크는 그 페이지가 다른 웹사이트에 링크되는 것을 가리키는 용어로, 많은 백링크를 획득할수록 유용한 사이트로 평가됩니다. 또한 '더 중요한 사이트에서 링크될수록 가치가 높다'는 평가기준도 존재하여 조작으로 인한 악영향을 줄일 수 있습니다. 그러나 이러한 알고리즘은 역시 페이지의 내용 자체가 아니라 페이지의 링크라는 메타데이터가 중시되고 있습니다.


이외에도 Google은 2개의 중복된 페이지에서 정품 여부를 판별하기 위한 메타데이터와 온라인 쇼핑의 상품정보를 나타내는 메타데이터 등 웹사이트의 관리자가 제공하는 다양한 메타데이터를 사용하고 있습니다.

Paterson 씨는 개인적으로, 검색결과 화면의 상단에 표시되기 쉬운 사이트는 정말 내용이 우수한 것이라기보다는 메타데이터를 올바르게 잘 설정하는 관리자에 의한 표면적인 것이 많다고 주장합니다. 이 문제를 개선하려면 검색어에 'reddit', site : reddit.com 등을 추가하여 메타데이터를 의존하지 않은 검색결과를 보는 편이 좋다고 말합니다.

메타데이터가 AI보다 나은 검색결과를 나타내는 현상은 검색엔진에 국한된 것이 아니고, 수동으로 추가된 메타데이터는 성숙하면 여러 분야에서 AI를 능가한다는 것. Google은 AI가 서비스 제공에 많은 역할을 하는 것처럼 주장하지만, 여전히 메타데이터는 중요하다고 Paterson 씨는 말합니다.

Posted by 말총머리
,