[웹과 웹 검색] (3-2) 웹 검색의 이해: 색인

웹과 웹 검색 시리즈 읽기
1. 웹이란 무엇인가
2. 웹의 역사
3-1. 웹 검색의 이해: 정보의 수집
3-2. 웹 검색의 이해: 색인

혹시 원하는 정보를 찾기 위하여 도서관에 들르신 적이 있나요? 마지막으로 도서관에 들르신 적이 언제였나요? [이 글의 필자가] 어릴 때만 해도 동네 도서관에서 어떤 주제에 관해 조사를 해오는 과제를 학교에서 내주기도 했답니다. 하지만 컴퓨터와 모바일 기기를 이용해 내 손가락 끝으로 정보를 쉽게 검색할 수 있게 된 후로는 그럴 일이 없게 됐죠. (물론 도서관은 웹에서 구할 수 없는 정보를 가지고 있기도 하고, 정보 검색 이외에도 여러 기능을 수행하기 때문에 꼭 필요한 기관입니다.)

도서관 색인 카드의 사진도서관에 들러서 가장 처음 해야 했던 일은, 내가 찾는 책이 그 넓은 공간의 어디에 있는지 알아내는 일이었습니다. 이를 위해서 ‘색인 카드’라는 것을 사용했는데, 각각의 카드에는 저자의 이름과 책 이름, 출판일 등의 정보가 적혀있었고, 이러한 카드가 큰 서랍장에 저자명 순으로 담겨있었습니다. 그렇게 카드를 찾아내서, 해당 책의 위치를 가리키는 코드를 받아적은 후, 그 코드를 따라가서 책을 열람할 수 있었습니다.

이 작업이 어렵다고 느껴질 때는, 도서관의 사서를 찾아가 도움을 부탁할 수 있었습니다. 사서는 색인을 구축하고 관리하는 사람이니까, 일반 도서관 이용자보다 빠르고 쉽게 정보를 찾을 수 있었습니다. 컴퓨터 색인이 도입되어 도서관의 곳곳에 비치된 컴퓨터에서 직접 검색을 할 수 있게 되기 전까지는, 도서 검색이 이렇게 이루어졌습니다.

웹은 온라인상의 도서관입니다. 웹 검색은 도서관의 사서와 같은 역할을 합니다. 도서관의 사서와 마찬가지로, 웹 검색이 웹 사용자의 정보 검색에 도움을 주기 위해서는 색인(인덱스, index)이 필요합니다.

수집된 정보의 색인화

검색 로봇이 웹을 돌아다니며 공개된 웹 페이지 정보를 수집해오면, 이 웹 페이지는 색인의 대상이 됩니다. 굳이 웹 페이지에 ‘이 페이지를 색인하지 마시오’라는 메모만 붙여놓지 않았다면 말이죠. 색인을 만드는 과정은 검색 엔진마다 차이가 있지만, 가장 중요한 것은 웹 페이지에 어떠한 정보가 있는지, 어떤 주제로 만들어진 콘텐츠가 있는지 파악하는 일입니다. 검색 로봇이 정보를 수집하듯, 색인 작업도 사람이 아니라 검색 엔진 소프트웨어가 하는 일이기 때문에 정확한 내용을 파악하는 일은 매우 어렵습니다. 여러 기계 학습 기술이 텍스트나 이미지를 분석하는 데 쓰이지만, 웹 페이지마다 워낙 그 형태가 다양하다는 사실이 색인 작업을 더욱 어렵게 만듭니다.

하지만 웹 페이지 자체에 콘텐츠가 무엇인지 쉽게 요약이 되어있다면 어떨까요? 웹마스터가 ‘이 페이지는 영국 프리미어 리그 축구에 관한 페이지다’, ‘이 페이지는 고구려 초기 역사에 관해 기술한다’라는 식으로 해당 페이지의 내용을 요약하여 검색 엔진이 쉽게 볼 수 있게 하면, 색인 작업이 훨씬 수월해집니다. HTML 기준을 잘 따르는 것이나, 텍스트를 가급적 이미지로 만들지 않는 등, 검색 엔진의 색인 작업을 돕는 여러 기술을 검색 엔진 최적화(Search Engine Optimization, 또는 SEO)라고 하는데요, 귀찮더라도 이렇게 해야 하는 이유는 검색 서비스보다는 웹사이트를 위한 일입니다.

검색 엔진 최적화

검색 엔진에 내 모습이 제대로 나타나는가?

검색 엔진에 내 모습이 제대로 나타나는가?

누군가 고깃집을 하나 열기로 합니다. 식당 이름을 평범하게 짓지 않겠다고 결심한 그는, 고기 맛이 아주 좋아서 사람들이 몇 시인지도 모르고 식사를 하다가 문득 늦은 시간임을 깨닫고 허겁지겁 귀가한다, 라는 뜻을 담아 가게 이름을 ‘신데렐라’로 짓기로 합니다. 간판을 내걸고, 가게의 겉에는 유리구두를 예쁘게 그려넣습니다. 그리고 개점을 합니다.

안타깝게도 지나가던 사람들은 간판과 장식만을 보고는 그 가게가 무엇을 하는 가게인지 알지 못합니다. 구두를 파는 곳인가, 아니면 공주 인형을 파는 곳인가. 지도를 그리는 회사에서도 착각하여 ‘신데렐라’가 마치 제화점인 것처럼 지도에 올려둡니다. 신개념의 구두를 파는지 알고 들어왔다가 허탈해하며 나가는 고객이 생깁니다.

이건 분명 주인이 의도했던 것이 아닐 겁니다. 조그맣게라도 고기를 파는 식당이라고 적어두고, 식당의 메뉴나 음식 사진을 잘 보이는 곳에 붙이는 등의 노력을 하면, 그제야 사람들은 고깃집임을 알고 퇴근길에 동료들과 회식을 하러 찾아오기 시작할 겁니다.

실제로 있을 수 없는 과장된 예라고 생각하실 수 하지만, 웹에선 너무나도 자주 일어나는 일입니다. 웹 쇼핑몰을 만들거나 블로그를 만들고는, 그 웹사이트가 어떤 정보를 가지고 있고 어떤 목적으로 만들어졌는지 검색 엔진에게 분명하게 설명하지 않아서 검색 상에 잘못 나타나는 경우가 잦습니다. 검색 엔진 최적화는 내 사이트가 내가 의도한 대로 웹과 웹 검색에 드러나게 하여, 내가 제공하는 정보를 필요로 하는 방문자를 유도하는 작업입니다. 웹사이트의 검색 엔진 최적화가 잘 이루어질수록 웹 이용자도 원하는 정보를 더욱 쉽고 빠르게 찾을 수 있게 됩니다.

우리나라 웹사이트 중에는 자극적인 문구와 사진 등을 이용한 ‘낚시질’을 통해, 웹사이트 내용과 상관없이 방문자 유입을 꾀하는 경우가 유독 많은데요, 고깃집에 구두를 사러 오는 사람만 100명이 있는 것과 고기를 먹으러 오는 사람이 5명 있는 것 중 어느 것이 나을지는 너무도 명확합니다. 올바른 검색 엔진 최적화는 검색 엔진, 웹사이트, 웹 이용자 모두를 위한 것입니다. 더 자세한 정보는 본 웹사이트의 검색 엔진 최적화 페이지에서 확인하세요.

웹의 지도 그리기

색인 작업은 단순히 웹 페이지가 어떤 정보를 가졌는지 알아내는데 그치지 않고, 웹의 구조를 이해하여 지도를 그리는 작업도 포함합니다. 웹 페이지와 링크가 서로 어떻게 얽혀있는지 알아내어 거미줄을 그려보는 작업은 웹 페이지의 중요도를 측정하는데도 도움이 되고, 어느 웹 페이지가 다른 페이지에 어떤 앵커 텍스트(링크할 때 사용하는 텍스트)로 링크되었는지 보고 내용을 유추하는 데도 쓰입니다.

검색 엔진이 앵커 텍스트를 활용하는 예
검색 엔진이 앵커 텍스트를 활용하는 예

웹의 색인을 만드는 일은 지속적인 노력이 필요한 일입니다. 서울 지도는 1년이 지나도 쓸모가 있지만, 웹의 지도는 하루 이틀만 지나도 옛날 것이 되어버립니다. 어떤 웹 페이지가 새로 생겼는지, 없어졌는지, 아니면 바뀌었는지 알아내기 위해 검색 로봇이 끊임없이 웹을 활보하고 있고, 검색 엔진은 그에 맞추어 색인을 갱신합니다.

웹 검색의 사용자가 질문을 던지면, 검색 엔진은 이렇게 미리 만들어진 색인을 참고하여 웹의 어디에 관련 정보가 있는지 신속하게 알아내어 사용자에게 전달합니다. 이 과정에 대해서는 다음 글에서 다루고자 합니다.

최성철, 구글 소프트웨어 엔지니어

This entry was posted in 웹과 웹 검색 and tagged , , , , . Bookmark the permalink.

2 Responses to "[웹과 웹 검색] (3-2) 웹 검색의 이해: 색인"

Leave a Reply

Your email address will not be published. Required fields are marked *


*