2004년 7월 10일 토요일

term frequency(TF)를 이용한 검색의 문제점

term만을 이용하는 방식의 문제점
1. web은 self-descriptive하지 않다. 자신이 중요한지, 중요하지 않은 지 한 문서만으로는 판단할 수 없다.
2. abuse가 쉽다. (특정 단어를 많이 넣어버림.)
3. 그래서 altavista가 망했다.
4. term을 이용한 방법은 관련 페이지를 찾는 데에는 유용하다. (word-word, query-query)
5. 하지만 중요도(weight)를 판단하는 데는 활용할 수 없다.

link popularity를 이용하는 방식을 이용하면 누가 중요한지 쉽게 알 수 있다.

관련 논문
A method for calculating term similarity on large document collections
http://www.isri.unlv.edu/publications/isripub/Bein2003a.pdf

댓글 없음:

댓글 쓰기