본문 바로가기

.주제별/일반

[펌] 검색엔진의 발전 과정과 이에 따른 문화 변화

아래는 "김중태 문화원" 사이트의 글을 인용한 것입니다.

(저작권에 관련한 글을 보니, 비상업적으로 펌 가능이더군요^^)

 

기술 발전에 따라 검색 방법은 점차 변하고 있다.

시맨틱웹의 신기술을 이해하기 위하여 먼저 지금까지 웹의 발전단계를 알아보도록 하자. 현재 우리가 정보를 사용하는 과정은 '1. 정보를 찾는다. 2. 내게 맞는 정보인가 확인한다. 3. 맞다면 읽어보고 기억하거나 내 글에 인용한다. 4. 저장해두고 관리한다. 5. 나중에 필요할 때 다시 꺼내 쓴다.'의 순서로 진행된다. 이 과정에서 우리는 좀더 편하고 빠르게 정확한 정보를 찾아서 활용하기를 바라기 마련이고, 인터넷 기술은 이런 욕구를 충족시키기 위해 계속 발전해왔다. 시맨틱웹이 구현될 경우 이들 과정에서 큰 변화가 일어난다. 시맨틱웹은 정보의 단위를 초기웹의 링크 단위인 사이트, 문서(Page) 단위에서 낱말(Word) 단위로 바꾸며 알맹이 활용 문화를 바꾸고 있다.

 

1세대 디렉토리방식. 즐겨찾기의 공개와 공유가 야후를 키웠다.

제리 양(Jerry Yang)이 조교인 데이빗 필로우의 끝 없는 지식에 감탄하고 지식의 원천을 알아내기 위해 인터넷 사이트 가이드 만들기를 제안한다. 둘이 만든 "Jerry's Guide to the World Wide Web"은 엄청난 인기를 끌게 되고, 많은 네티즌의 제안에 따라 더욱 많은 사이트가 추가된다. 이후 애플 컴퓨터, 아타리, 시스코, 오러클 등의 세계 최고의 기업에 투자해 성장시킨 'Sequoia Capital'이라는 벤처 캐피탈의 투자를 받아 회사로 성장하는데, 이것이 바로 디렉토리 방식의 검색엔진 야후다.

사이트가 몇 개에 불과할 때는 주소를 한 쪽 짜리 목록으로 정리해도 충분하다. 하지만 사이트가 수 천 개를 넘어가면 찾기 편하게 분류해주면 좋겠다는 생각이 든다. 그래서 과학 사이트, 컴퓨터 사이트, 문학 사이트 등으로 분류했다.

1세대 검색엔진인 디렉토리 방식의 야후가 탄생했을 때는 검색 단위가 사이트였다. 사람들은 좋은 사이트를 발견하면 만족스러워 했고, 잘 분류된 좋은 사이트 목록을 만드는 것이 중요한 일이 되었다. 이때만 해도 잘 분류된 검색사이트 목록은 옐로우페이퍼라는 책으로 만들어져 배포되었는데, 사이트 증가가 빨라지면서 옐로우페이퍼처럼 목록을 보며 눈으로 찾는 방법의 효용성은 한계에 이른다. 자신이 찾는 사이트가 판타지문학이 아닌 애니메이션이 사이트로 엉뚱하게 분류되어 있다면 찾기 힘들 것이다. 자기가 잘못 판단해서 엉뚱한 디렉토리를 파고 들 수도 있다. 때문에 원하는 사이트가 어느 디렉토리에 있는지 찾아주는 디렉토리 검색(Search)기술이 도입된 것이다.

야후(YAHOO)

** 디렉토리 방식의 대표주자 야후

 

2세대 검색방식. 검색결과가 많으면 좋은 검색엔진이다.

2세대 검색엔진은 검색방식으로 사용자가 검색한 내용을 인터넷에서 찾아서 보여주는 시대다. 처음에는 사이트 단위였지만 점차 웹문서까지 검색해주는 방대한 수준으로 발전했다. 이 과정에서 라이코스, 알타비스타 등의 많은 사이트가 등장했는데, 이때 인기 검색사이트는 검색 결과를 많이 보여주는 사이트였다. 사람들은 어딘가 숨어있는 문서를 찾아서 많이 보여주기만 하면 좋은 검색엔진이라고 생각했다. 똑 같은 낱말을 입력했을 때 10개의 검색결과를 보여주는 검색엔진보다 100개의 검색결과를 보여주는 검색엔진이 인기를 끌었다. 검색 단위는 페이지(page)로 바뀌었다.

라이코스(Lycos)

라이코스(Lycos)

** 2세대 검색엔진의 대표인 라이코스. 검은개와 엄정화가 등장한 광고로 유명한 한국의 라이코스는 다음에 합병되어 사라졌다.

 

3세대 가치평가방식. 대중적 가치를 부여한 문서를 찾아주는 시대가 지금이다.

웹문서가 더욱 폭발적으로 늘자 단순하게 검색결과를 많이 보여주는 검색결과의 한계가 나타났다. 불필요한 문서를 구분하기 힘들어진 것이다. '블로그'가 무엇인지 궁금해서 검색하면 수 십 만 개의 검색결과가 나오는데, 링크 된 것을 누르면 엉뚱한 문서들이 자꾸 나오는 것이다. 이때 생기는 욕구는 '사람들이 많이 보는 유용한 문서들부터 보여주면 좋겠다.'는 것이다. 이런 욕구를 충족시키기 위해 나온 것이 대중적 가치를 판단하고 평가하는 기술이다. 히트수, 방문수, 링크수, 추천수 등의 다양한 방법을 이용해 대중들이 가장 많이 찾는 문서들을 최상위로 올려주기 시작했다. 검색 결과에 대중적 가치를 부여하는 '가치의 시대'로 넘어간 것인데 이것이 3세대 검색엔진이다.

현재 우리가 사용하고 있는 검색엔진이 3세대에 속하는데, 이 분야에서 가장 좋은 기술을 가지고 있는 것이 페이지랭크(PageRank) 방식의 구글이다. 후발주자인 구글(www.google.com)이 최고의 검색엔진이자 IT기업으로 뜬 이유는 대중이 원하는 문서를 가장 잘 평가하고 최상위에 보여주기 때문이다. 반면 2세대의 대표주자인 라이코스, 알타비스타 등은 많이 보여주는 것에서 벗어나지 못하고 쇠락하고 말았다. 국내 검색사이트는 평가기술이 매우 취약한 편으로 3세대에 겨우 발만 담근 정도에 불과하다. 국내 사이트는 취약한 평가기술을 편집방식과 지식DB(Database, 자료)라는 서비스로 보완하며 당장은 버티고 있지만, 자료의 양이 늘수록 이런 방식은 한계를 보인다.

구글(Google)

** 3세대 검색엔진의 대표인 구글. 현재까지는 가장 기술력이 좋은 검색엔진이다.

현재 내 지식검색 서비스라는 것은 과거에 있던 질문답변 게시판과 다를 것이 없다. 다만 인터넷의 특성 때문에 모든 네티즌이 참여할 수 있고, 예전의 질문답변에 비해 검색이 좀더 잘 된다는 장점이 있다. 그러나 국내 검색엔진은 지식인과 같은 서비스에 집중하면서 검색엔진 본연의 기술개발에 소홀하고 있다.

국내 검색포탈이 웹문서의 내용을 지식인과 블로그 서비스에 축적하도록 하는 이유는 웹에 있는 방대한 문서들의 대중적 가치를 평가할 기술이 부족하기 때문이다. 이 때문에 자신의 서버에 지식을 가두고 히트수, 추천수, 점수와 같이 쉽게 평가할 수 있는 옛날식 평가기술로 평가하려고 하는 것이다. 하지만 이는 전세계를 대상으로 서로 연결되고 공유해야 하는 웹의 기본사상과 어울리지 않는 방식이다. 결국 이런 형태의 국내 포탈 지식검색 서비스는 스스로 웹과 고립화를 시도하는 상황을 만든다.
3세대에서 검색의 단위는 낱말 단위로 확장되었다. 검색결과는 문서 안에 반전되어 표시되는 검색 낱말의 위치로 나타났다.

4세대 개인화방식. 다음 세대는 개인이 원하는 자료를 찾아주는 시대다.

3세대 기술이 최고에 달하면 가장 많은 대중이 찾는 가치 있는 문서를 찾아줄 것이다. 그러나 내가 원하는 문서는 아니다. '춘향전'으로 검색했을 때 사람들이 가장 많이 본 '춘향전 영화' 문서를 보여주겠지만 내가 찾는 '완판본 춘향전' 정보는 아닐 것이다. 결국 4세대 검색엔진은 한 개인에게 필요한 문서를 찾아주는 개인화방식이 될 것이다. 대중적 가치에서 개인적 가치로 넘어가는 것이며 개인에게 필요한 것을 잘 찾아주는 검색엔진이 시장을 선도할 것이다.

이를 위해 정보의 단위는 더욱 세분화될 것이다. 3세대까지가 문서 내용만 가지고 검색했다면 4세대부터는 숨은자료를 활용하여 숨은 정보까지 검색하는 시대가 될 것이다. 똑 같은 제목으로 '춘향전'에 관한 내용을 담은 글이라 하더라도 숨은자료를 이용해 이 문서가 70년대 이전의 영화를 다루고 있는 문서인지, 2000년대 이후의 춘향전 영화를 다루고 있는 문서인지 알 수 있다. 문서 안에 감독 이야기가 없더라도 숨은자료를 이용해 임권택 감독의 춘향전에 대한 영화평인지 다른 감독의 춘향전에 대한 영화평인지도 알 수 있다. 문서 내용에 드러나지 않은 숨은 정보를 찾아내 개인에게 필요한 문서를 찾아주는 것이 4세대 검색엔진으로 숨은자료를 활용하는 시맨틱웹이 진행될수록 개인화방식의 4세대 검색엔진 등장이 빨라질 것이다.

4세대 검색엔진의 검색범위는 웹 안의 숨은 자료까지 확대될 것이고, 검색 결과는 눈에 보이지 않은 정보를 표시하는 것으로 나타날 것이다.

다음 세대는 검증방식이 결합된 시대가 될 것이다.

결국 내가 필요한 문서나 지식을 찾았다고 하자. 인터넷으로 보고 듣는다. 그런데 이해가 안 될 수 있다. 이해가 안 되는 이유는 여러 가지인데 가장 큰 이유는 문서에 있는 말들을 이해하지 못하기 때문이다. 'RSS는 XML 기반의 규약'이라고 설명했는데, 'XML, 기반, 규약'이라는 세 가지 낱말을 이해하지 못한다면 RSS를 이해할 수 없다. 기껏 찾았는데 이해하지 못한다면 있으나마나 한 문서다. 따라서 이들 낱말을 쉽게 이해할 수 있는 장치가 필요하다.

이해했다고 하자. 그런데 과연 내가 이해한 것이 사실이고 진실일까? 내가 읽은 문서 자체가 거짓을 담은 문서일 수 있고, 잘못 이해한 것일 수 있다. 예를 들어 한국인이 쓴 '사과색의 예쁜 주전자'라는 문서를 보고 인도인은 '초록색 예쁜 주전자'라고 이해할 것이다. 파란색사과를 먹는 나라는 '파란색의 예쁜 주전자'로 이해할 것이다. 한국인이 생각하는 '빨간색 주전자'가 엉뚱하게도 초록색이나 파란색으로 바뀌는 것이다. 즉 내가 이해한 것이 진실이 되기 위해서는 내가 이해한 낱말 뜻이 작성자가 의도한 낱말 뜻과 같은 것인지, 작성자가 거짓으로 작성한 문서는 아닌지 검증이 필요하다. 이런 검증이 끝난 후에야 비로소 내가 이해한 것이 진실 된 정보임을 확인할 수 있는 것이다. 이 때문에 개인화를 거친 다음 세대 검색엔진은 검증시스템을 제공하는 검색엔진이 될 것이다. 물론 검증시스템이 검색엔진 차원에서 제공되어야 할 이유는 없다. 하지만 현재 추세로 볼 때 경쟁의 우위를 점하기 검증된 자료를 제공하기 위한 노력이 검색엔진에서 시도될 것이라는 점은 분명하다. 이미 P2P 프로그램에서는 네티즌에 의해 어떤 프로그램이 믿을만한 프로그램인지 아닌지를 확인하는 시스템을 갖추어가고 있다. 검색엔진에서도 특정 문서나 자료가 믿을만한 자료인지 아닌지 판별하는 시대가 곧 올 것이다.