2004년 7월 16일 금요일

단어, 약어 추출하기

Algorithm

query-query에서 단어 추출하기

단어 자르기
1. query-query pair에서 각 pair의 길이가 한글 2글자 이상인 longest common substring을 찾아서 모은다.
예) (일본, 일본문화)  => 일본
     (일본역사, 미국역사) => 역사
2. 1에서 추출하고 남은 글자만 counting
3. 1, 2에서 각자 모든 단어후보들 중 상위만 취한다.

약어 찾기
1. sequence alignment 기법을 이용. (dynamic programming)
    (bioinformatics등에서 DNA 조각 맞추기 등에 사용)
2. alignment 후 common fragment만 comcatenation한다.
3. 한 string은 blank가 없고 다른 string은 blank가 없이 align되면 약어임.

예) 고려대학교, 고대 동문회
      고려대학교
      고__대____동문회
     => 결과 : (고려대학교, 고대)

약어 찾기2)
query-query가 있을 때 어떤 단어가 한 단어의 substring(order를 보존하면서 fragment를 모은 string)이면 약어일 가능성이 높다."

Query-Query의 장점
1. 유사한 단어 pair가 출현한다.
2. 웹문서를 분석하는 것에 비해 algorithm이 간단하고 data가 짧다.

단점
1. data의 양이 웹문서에 비해 적다.

다른 방법
1. 알바생들에게 모든 경우를 입력하게 만든다.
2. 이미 나와있는 약어, 동의어, 유의어(thesaurus) 사전을 구입한다.
   혹은 사전을 알바생에게 입력하게 한다.

댓글 없음:

댓글 쓰기