2005년 5월 8일 일요일

[Tech]IR과 학습

Information Retrieval분야에서 Document Frequency와 Term Frequency라는
기술이 있다.
단순히 단어 수를 세는 기술이다.


Document Frequency : 특정 단어가 몇 개의 문서에 나왔는 가?
Term Frequency : 특정 단어가 모든 문서에 총 몇 번 나왔는 가?


이것을 이용하면 중요한 단어와 중요하지 않은 단어를 고를 수도 있고,
연관된 문서를 찾을 수도 있다.


DF, TF라는 기술이 유용하게 쓰이기 위해서는 문서가 매우 많이 필요하다.
문서가 달랑 한 개라면 별 의미가 없다.
문서의 양이 많아지만 Emergence가 일어나서 각 문서들이
다른 문서와 비교되고 각 단어가 다른 단어와 비교되면서
상대적인 의미, 중요도, 유사도가 결정될 수 있다.


검색 엔진들이 검색 가능한 문서의 갯수를 늘리는 이유도 거기에 있다.
그렇게 함으로써 결과로 나오는 문서의 갯수가 증가할 뿐만 아니라
각각의 검색 결과와 검색된 문서의 품질, 분석의 정도, 순위의 정밀도도 올라간다.



이 분석방법을 확장하여 인간의 학습 모델에 적용시켜보자.
인간은 학습을 한다. 그것은 문서로 모델화 할 수 있다.


하나의 개념을 달랑 배웠을 때는 그것이 무엇인지,
배운 내용 중 어떤 것이 중요한 지 잘 판단하기가 어렵다.
그것과 비슷한 개념, 대립되는 개념, 전혀 상관없는 개념,
그것을 응용한 개념들을
많이 배워야 하나의 개념이 더 굳건하게 정립될 수가 있다.


그래서 우리는 하나를 알기 위해서는 열을 배워야 한다.
열 개를 배우면 열 개를 다 잘 알 수도 있지만
하나만 배워서는 아무것도 모른다.
평균적인 고학년 학생이 저학년 학생보다 뛰어난 이유도 그것이다.
학년이 올라가면서 새로운 개념을 배움에 따라
저학년 때 배운 개념들과 비교가 되면서
과거에 배운 것들이 더 잘 정립되는 것이다.


예를 들어 '엄마'라는 단어를 정의해보자.
달랑 그것 하나만 가지고는 정의하고 학습시키기 매우 힘들다.


하지만 '아빠', '언니', '누나', '여동생', '어른', '나', '사람' 같은
것과 함께 설명하면 그것을 학습시키기 훨씬 쉽다.


참고)
무한상상인터페이스, Chapter 5. Text, 셰익스피어를 연구하는 컴퓨터 학자 - 스티븐 존슨 지음

댓글 없음:

댓글 쓰기