2004년 6월 17일 목요일

citation와 검색엔진

citation의 장점은 문서간의 network 구성을 한다는 데 있다.
그런데 단점도 만만치 않다.
첫째, 귀찮다. 말 한마디 할 때마다 인용 문헌을 한 편씩 찾아서 link하는 건 매우 짜증스러운 일이다.
둘째, 모든 인용문헌을 찾기는 불가능하다.
인간의 지식에는 한계가 있기 때문에 인용문헌을 모두 찾을 수가 없다.
그리고 문서 제작은 과거의 문헌만 link를 걸 수 있고 미래의 문서에는 link를 걸 수 없다.
(문서 작성 시점에 아직 기술되지 않은 문서를 어찌 알 수 있으리오,
 인류는 아직 타임머신을 만들 지 못했다.)


검색엔진은 이런 문제들을 해결해 준다.
각 단어, 주제어 별로 유사한 문서, 권위있는 문서를 찾아주기도 하고
인간보다 훨씬 큰 capacity와 노가다를 통해 통계적, 수학적 방법으로 관련 문서를 찾아낸다.
그리고 한 문서의 작성 시점보다 미래의 문서도 검색엔진에 등록하면 과거의 문서와 다시
연관 관계를 추론할 수 있게 해준다. (양방향성)


이처럼 citation과 검색엔진에는 밀접한 연관이 있다.
또한 어떤 검색 엔진은 citation을 이용해서 만든 검색엔진도 있다.
대표적인 것이 google, pagerank algorithm이다.


검색 엔진의 단점은 물론 citation이 explicit한 반면 impicit하고 generic하게 찾기 때문에
단일 주제가 아니거나, 신조어 등을 사용했을 때, 주제어가 없을 때 매우 난감한 상황을 가져오게 된다.
(검색기술의 일반적 한계)

댓글 없음:

댓글 쓰기