2004년 6월 19일 토요일

검색엔진 만들기와 웹문서

html은 그 지나친 유연성과 browser의 악명높은 incompatilibity, 제멋대로 rendering이
아주 장난이 아니다.
Web programmer들도 이런 문제들 때문에 무진장 두통에 시달리고 있다.


그래서 Web programming은 하지 말아야 겠다고 다짐하고 살아가고 있는 차에
검색분야로 옮기게 되었다. 이쪽은 더 쓰레기다.;;a


web programmer는 그래도 내가 만든 페이지만 이쁘게 보이면 되는 데
(수단과 방법을 가리지 않는 무한 trial & error와 표준과 메뉴얼에 나와있지 않는 온갖 꽁수와 잡기로..)
검색엔진은 남이 만든 html을 가져다가 parsing하는 생쑈를 해야 한다.


html 문서의 syntax가 첫 번째 문제라면
두번째는 user들의 악명높은 국어실력.
문서의 대부분은 쓰레기, 광고, 깨진 페이지, 없는 페이지이고
맞춤법이 맞지 않는 것들 뿐이다.
문학적 표현을 빌리자면
"미친년 오뉴월 태풍 오는 데 널뛰기 하는 꼴"
온갖 filtering 기법과 heuristic algorithm, information theory와 information retrieval 등을 동원한
수학, 통계적 분석을 뛰어넘는 이 창의적이고 엽기발랄한 어휘들..
내가 프로그래머인지, 초등학교 1학년 국어학습지 맞춤법 교정 교사(teacher)인지, dcinside 알바생인지 모르겠다.


dcinside 알바생은 dcinside에서 나오는 글만 보면 되지만
검색엔진 개발자가 다룰 문제의 domain은 internet의 모든 문서.
(구글이 검색하는 웹페이지 40억개)

댓글 없음:

댓글 쓰기