. Yahoo가 google보다 못한 이유
. Directory Service의 한계
. 분류 Hierarchy가 완벽하지 않다.
. 각 분야의 구분은 자의적인 것이지 절대적인 것이 아니다.
. 세상 모든 자료를 분류법을 이용하여 단일 분류에 넣는 것이 불가능하다.
. 예) "한국의 호랑이"는 동물학에 넣을 것인가? 한국에 넣을 것인가?
. 중복분류를 통해 여러곳에 넣을 수도 있으나 어느 쪽에 넣기에도 애매한 정보들이 존재한다.
. 새로운 분류 항목이 추가되었을 때 기존의 모든 데이터를 새로운 분류 항목에 적절한지 보고 재분류해야 한다.
. 분류 전문가가 아니면 어디에 들어가야할 지 쉽게 결정할 수 없다.
(고급 인력을 너무 많이 필요로 하고 분류 속도가 너무 느리다.)
. 분류 전문가라고 하더라도 세상 모든 지식을 알 수는 없다.
(다수의 다양한 분야의 전문가 집단을 보유해야 한다.)
유저에게 맡길 수도 있으나 그들의 abuse하지 않으리라는 보장도 없다.
. Altavista가 망한 이유
. Web문서는 self-descriptive하지 않다.
. 자신이 어떤 주제(or 제목)으로 말하는 지,
무슨 정보를 담고 있는 지 한 페이지만 보고는 알 수가 없다.
예) 자신이 1등 site라고 써붙여 놓지 않는 다.
(마케팅을 위해 적어두기도 하지만 스팸과 구별할 수 없다.)
. 자신이 얼마나 중요한지, 덜 중요한지 알 수가 없다.
. Text기반, Meta tag기반은 스팸의 위험이 크다.
별로 상관없는 문서에서 자주 나오는 단어를 많이 적어두면
Term Frequency가 올라간다.
. 정확히 그 단어가 그 형식과 순서로만 있어야 한다.
유의어, 동의어가 있어도 전혀 인식하지 못한다.
댓글 없음:
댓글 쓰기