속눈썹맨 블로그: Directory search와 text based search의 단점

2005년 11월 15일 화요일

Directory search와 text based search의 단점

. Yahoo가 google보다 못한 이유
  . Directory Service의 한계
    . 분류 Hierarchy가 완벽하지 않다.
      . 각 분야의 구분은 자의적인 것이지 절대적인 것이 아니다.
    . 세상 모든 자료를 분류법을 이용하여 단일 분류에 넣는 것이 불가능하다.
      . 예) "한국의 호랑이"는 동물학에 넣을 것인가? 한국에 넣을 것인가?
      . 중복분류를 통해 여러곳에 넣을 수도 있으나 어느 쪽에 넣기에도 애매한 정보들이 존재한다.
      . 새로운 분류 항목이 추가되었을 때 기존의 모든 데이터를 새로운 분류 항목에 적절한지 보고 재분류해야 한다.
      . 분류 전문가가 아니면 어디에 들어가야할 지 쉽게 결정할 수 없다.
        (고급 인력을 너무 많이 필요로 하고 분류 속도가 너무 느리다.)
      . 분류 전문가라고 하더라도 세상 모든 지식을 알 수는 없다.
        (다수의 다양한 분야의 전문가 집단을 보유해야 한다.)
        유저에게 맡길 수도 있으나 그들의 abuse하지 않으리라는 보장도 없다.

. Altavista가 망한 이유
  . Web문서는 self-descriptive하지 않다.
    . 자신이 어떤 주제(or 제목)으로 말하는 지,
      무슨 정보를 담고 있는 지 한 페이지만 보고는 알 수가 없다.
      예) 자신이 1등 site라고 써붙여 놓지 않는 다.
          (마케팅을 위해 적어두기도 하지만 스팸과 구별할 수 없다.)
    . 자신이 얼마나 중요한지, 덜 중요한지 알 수가 없다.
    . Text기반, Meta tag기반은 스팸의 위험이 크다.
      별로 상관없는 문서에서 자주 나오는 단어를 많이 적어두면
      Term Frequency가 올라간다.
    . 정확히 그 단어가 그 형식과 순서로만 있어야 한다.
      유의어, 동의어가 있어도 전혀 인식하지 못한다.

속눈썹맨 블로그

2005년 11월 15일 화요일

Directory search와 text based search의 단점

댓글 없음:

댓글 쓰기