2006년 6월 13일 화요일

[언어학개론]12. 언어와 컴퓨터 - 응용언어학

. 응용언어학
  . 교육법
  . computer
  . computer처리(전산언어학) - 자연어 처리

. 언어학(linguistics)
  . 인간의 지적활동 중에서 언어의 생성과 이해를 과정에 대한 탐구를 목적으로
   하는 학문
  . 연구의 초점은 인간이 지니고 있는 지적 능력의 한 부분으로서의 언어능력
   혹은 언어 능력의 외적 구현으로서의 언어 행위의 과정을 기술하고
   형식화하는 것이다.
  . 이론적 연구분야 : 음성학, 음운론, 형태론, 통사론(구문론), 의미론, 화용론

. 전산언어학(computational linguistics)
  . 언어로 의사소통하는 인간과 기계의 상호 접촉에서 발생하는 제반
   언어학적 문제를 다루는 분야 - 인간과 기계의 관계
  . 도구개발을 위한 언어 연구
   . 형식문법(formal grammar)
   . 어휘부(사전, dictionary, 전자사전)
  . 음성, 음소처리, 형태소분석, 통사분석, 의미분석, 화용분석

. 자연언어처리(Natural Language Processing)
  . 자연언어로 의사소통이 가능하도록 하기 위한 계산 효율성이 있는
   장치의 탐구와 개발을 목표로 하는 전산과학의 하위 영역
   . 자연언어 vs 인공언어
  . 연구영역 : 자연언어생성, 자연언어의 문법적 형식구조 분석,
   인간과 기게의 인터페이스 개발, 어휘부의 구조 분석 및 조직, 담화분석,
   의미 연구 및 지식 표현
  . 응용분야 : 기계번역, 정보검색, 교육, 문서작성 보조도구 개발, 자동번역
  . 자연언어처리 대상이 되는 자료는 언어이므로 언어학과 밀접한 관련이 있음

. Computational Linguistics and Natural Language Processing
  . mathematical models
  . human-human
  . human-machine communication
  . linguistic problem
  . linguistics formalism
  . computational formalism
  . computational implementation

. Contents in CL
  . formal representation of human language
  . algorithm for processing natural language
   . general, mechanic, finite(finite state automata)

. Difference between traditional linguistics and computational linguistics
  1. Full ambiguity - without ambiguity
  2. complex structure - relatively simple structure
  3. 어렵게 - 사람이 의미를 조절
  4. 의미와 구조의 n:n관계 - 1:1관계

. Difference between traditional linguistics and computational linguistics
  . 전산언어학 : 기존의 언어학 = 응용 : 이해
  1. 일반언어현상 - 특수언어현상
  2. 실용적 - 이론적
  3. 분석하고 이해 - 이해하고 분석
  4. 언어연구들을 넘나듬 - 언어 연구만 함.

. 자연언어 처리의 역사
  . 1:1 영어-러시아어 번역 : 1954

. 음성합성의 개요
  . 입력 단어 또는 문장을 음성으로 변환
  ex) 114전화번호 안내, ARS, 지하철 역 안내, 증권시세 확인
  . TTS(Text to Speech)
   문자가 오면 말로 읽어 주는 기능, 즉 문장의  소리변환 기능
  . 제한적 음성합성 : (단어수가 적음)
  . 무제한적 음성합성 : (단어수가 많음)

. 코커스 - 사람의 말을 녹음, 부드럽지 않고 가끔 끊어질 때가 있음.
. 음성합성은 음성인식보다는 잘 되고 있다.

. 음성인식
  . 스펙트로그램 - 음향, 음성학에서 이용, 음운론 등
  . 고립단어 인식
  . 연속음성인식
  . 자유발화음성 - 아무런 제약조건 없음.

. 기계 번역의 개요
  . MT(Machine Translation)
   . Mad Translation - 잘 안되더라는 비유
   . 컴퓨터가 한 언어의 텍스트를 다른 언어의 텍스트로 번역하는 것을 말함.
  . Human translation
   . Too expensive
   . Too slow

  ex) ETRI의 특허문서 번역 - 몇 초만에 한다.
    80%만 되도 대충 알아볼만 하다. 중요한지, 아닌지는 판단가능하다.

. 기계 번역의 필요성
  . 번역가들에게 위혀이 되나? No
  . 인간과 컴퓨터는 능력 차이가 있다.
  . 반복된 작업은 기계에게 맡기고 문학 등 창작물은 인간이 번역한다.
 
. 자동번역
  . 시간과 비용 절약

. 자동번역의 어려움
  . 통사적 중의성
   . 하나 이상의 수식어구의 피수식어 관계
  . 형태적 중의성
   . 하나의 단어 - 여러 품사.
  . 의미 중의성(semantic ambiguity)
   . 다의어(Polysemy)
   ex) mouth - 입, 강어구
  . 동음이의어(Homonym)
   . 배 - ship, pear
  . 공기(Collocation)관계
   ex) 밥을 먹다. - eat
       욕을 먹다. - get a scolding
       나이를 먹다. - get older
       겁을 먹다. - get scared

       고기를 굽다. - roast
       생선을 굽다. - grill

       파란 모자를 쓰다 - wear
       신다. - wear
       끼다. - wear

. 자동번역의 어려움
  . 구조 변환 문제
   . 동사에 따른 의미격의 차이
   . 동사 유형의 차이
   . 소유격의 차이
  . 차라리 문장 대 문장 1:1 통째 번역이 낫다.

  . 화용론적 중의성(pragmatic ambiguity)
   . 대화 상황 파악 필요
   . 관사 생성
  . 작가의 문체, 은유적인 표현, 미묘한 뉘앙스
  . 생략된 문구, 대용어(anaphora)
   . 대용어의 선행사 파악
   . 생략

댓글 없음:

댓글 쓰기