2004년 9월 1일 수요일

[기사]검색엔진의 강력한 음란물 필터링「알고보니 단순무식!?






검색엔진의 강력한 음란물 필터링「알고보니 단순무식!?」




Declan McCullagh (ZDNet Korea)







2004/04/26
원문보기











PartsExpress.com는 오디오 및 동영상 그리고 스피커 컴포넌트에 있어서 최고의 회사라고 자부하고 있는 업체다. 그런데 아마 구글 검색 엔진의 포르노 사이트 필터링 기능을 즐겨 사용하는 온라인 쇼핑 애용자들은 이 회사에 대해 전혀 모를 것이다.

오하이오 전자 소매업체인 이 회사는 어쩌다가 자기네 회사의 도메인 이름 중에 ‘sex’라는 단어가 들어가게 되었고 이 ‘sex’라는 단어 때문에 구글은 필터링을 통해 이 웹사이트에 대한 접속을 차단해버린다.

물론 이 사이트만 이런 일을 당하는 것은 아니다. CNET 뉴스닷컴에서 조사해본 결과에 의하면 구글의 세이프서치(SafeSearch) 필터링 기술은 도메인명에 ‘sex’라든지, ‘girls’, ‘porn’과 같은 단어가 들어가기는 하지만 사실은 그런 단어가 연상시키는 내용과는 관련이 없는 웹사이트마저 차단해버린다.

구글의 세이프서치에 포함되어 있는 취약점들은 단순히 이론적인 것이 아니라 아무 죄도 없는 웹사이트 운영자들 입장에서는 자기네 웹사이트가 구글 검색 엔진으로부터 완전히 차단돼 심각한 손해를 볼 수도 있는 것이다. 구글은 인터넷에서 가장 보편적으로 사용되고 있는 검색엔진이기 때문에 구글에서 차단되어 목록에 들어가지 못하게 되면 특히 마케팅 예산이 한정되어 있는 중소 업체의 판매량은 직접적으로 영향을 받게 된다.

지난 달 검색 회사인 웹사이드스토리(WebSideStory)는 구글에서 주장한 바에 따르면 구글은 검색 점유율이 최고 수준에 올랐으며, 미국내에서는 전체적으로 41%를 기록했고 구글의 시장 점유율은 지금도 꾸준히 상승세를 타고 있다고 발표 한 바 있다.

ALittleGirlsBoutique.com을 통해 소녀들을 위한 옷을 취급하는 가족 비즈니스를 하고 있는 마리아 메디나는 "구글에 들어가느냐 못들어 가느냐가 비즈니스를 살릴 수도 죽일 수도 있다. 나는 4명의 자녀를 키우기 위해 여자 아이들의 옷과 액세서리를 판매하는 재택 비즈니스를 하고 있다. 이렇게 하면 우리 아이들과 좀더 많은 시간을 보낼 수 있기 때문이다. 그런데 우리가 하는 비즈니스가 가족들에게 해롭다고 해서 차단하고 있다. 말도 안 된다"라고 말했다.

4년 전에 세이프서치를 만들어낸 구글 엔지니어 매트 컷츠는 자신이 만들어낸 알고리즘에서는 웹페이지 주소에 들어가는 ‘비교적 몇 안 되는’ 키워드를 겨냥하고 있다고 말했다. 이런 단어가 나타나면 세이프서치의 알고리즘에서는 차단 목록에 그 주소를 포함시키게 되고 그 사이트의 실제 내용이 어떤 것인지에 대해서는 아무런 평가를 하지 않는다는 것이다. 컷츠는 "우리는 정확성과 기억, 그리고 안전을 선택하는 대가로 피해를 최소화하고자 한다. 세이프서치를 선택하는 사람들은 우리가 보수적이라는 것에 대해서 별 문제 삼지 않는 사람들이다"라고 말했다.

컷츠는 얼마나 많은 웹 검색이 세이프서치를 통한 것인지에 대해서는 자세히 밝히려 하지 않으면서 구글이 매일 처리하는 수백만 건의 쿼리 중에서 매우 작은 양이라고만 말했다. 하지만 자기네 검색 기술의 우수성과 자기네 직원들 가운데는 컴퓨터 공학 박사들이 세계에서 가장 많다고 자랑하는 구글이 이런 식으로 필터링을 한다는 것은 그 이름에 어울리지 않는 일이다. 구글은 세이프서치에서 "키워드나 구절을 검사하는 기능을 가진 첨단의 독자적 기술을 사용"하며 "포르노라든지 명백한 성적 내용을 담은" 웹페이지에 대해서만 필터링을 하고 있다고 주장하고 있다.

인터넷에서 사서들의 인덱스라는 웹사이트를 운영하고 있으며 필터링 소프트웨어에 대해 연구하고 있는 도서관 사서인 캐런 슈나이더는 "그것은 별로 영리하지 못한 일이다"라고 하면서, 세이프서치는 "매우 원시적인 사이버시터와 같은 수준의 툴을 생각나게 한다. 사이버시터는 1990년대에 나왔던 툴로서 전혀 세련된 툴은 아니다"라고 말했다.

어이없는 음란 차단에 '선량한 주민'까지 등록 거부
지난 몇 년 동안 웹컨텐트 필터링의 부정확성에 대한 논란은 끊이질 않고 있다. 1996년에 있었던 매우 어처구니 없는 사건으로는 아메리카 온라인에서 만들었던 저속한 단어들을 차단하는 필터링 때문에 영국의 한 마을인 스컨쏘프 주민들의 등록이 완전히 차단당했던 적이 있었다. 그런데 구글도 역시 스컨쏘프의 뉴스 사이트인 hisIsScunthorpe.co.uk와 고양이 입양 사이트인 ScunthorpeDistrictCatsProtection.co.uk를 차단하는 등 똑같은 실수를 범하고 있다.

도메인명에 'sex'라는 단어 배열이 들어감으로서 문제가 된 사이트에는 ArkansasExtermination.com이 있는데 이 회사는 '흰개미와 해충을 완전 박멸'해준다는 회사다. 이름은 밝히지 않은 이 업체 사장은 구글이 어떤 식으로 분류하는지 정말 이해할 수 없다면서, "우리 형이 이 웹사이트를 만들었다. 나는 잘 모른다"고 말했다.

또한 세이프서치가 어린이들에게 안전하지 못하다고 분류한 웹사이트에는 JewishSussex.com와 매사추세츠 탑스필드의 EssexCountyBeeKeepers.org라는 종교 웹사이트, 그리고 호주의 블루스 밴드가 만든 웹사이트 BluesExcuse.SouthBurnett.com.auBassExpert.com, 그리고 앵글로 색슨의 역사 사이트인 RomansInSussex.co.uk 등이 있다.

RomansInSussex.co.uk을 디자인한 개럿 롤롭스는 구글 외에 다른 회사들의 필터링에 대해서도 불만을 표시했다. "우리는 다수의 도서관 네트워크와 학교 네트워크 및 인터넷 카페에서도 도메인 명에서 'sex'라는 단어가 들어가면 차단해버린다는 것을 알게 됐다. RomansInSussex.co.uk의 주 독자층이 학교에 다니는 아이들이기 때문에 문제가 크다"라고 말했다.

영국의 서섹스 고고학 협회와 근처 박물관들의 부탁으로 이 사이트를 디자인한 롤롭스는 "나는 구글이 우리같은 웹사이트를 위해 '화이트 목록'을 만들 수 있으면 좋을 것이라고 생각한다"라고 말했다.

구글의 소프트웨어 엔지니어인 컷츠는 세이프서치 웹페이지로 가면 방문자들이 불평이 있을때는 방문객들이 회사에 연락을 취해주기를 당부했다. 컷츠는, 도메인 명이나 웹 주소 가운에 ‘sex’라는 말이 들어가는 것에 대해서, "대부분 sex는 매우 복합적인 내용에서 사용되고 있다. 어떤 필터도 100% 정확한 것은 아니다. 우리는 우리 회사의 필터를 항상 검사하고 어떻게 하면 개선시킬 수 있을까를 고민하고 있다"라고 말했다.

온라인의 외설과 상스러운 단어를 싫어하는 검색자들을 끌어들이려는 회사는 구글 말고도 많다. 야후에서는 ‘성숙한 웹 컨텐트’라는 검색 필터를 제공하고 있으며 애스크 지브스에서도 아동에게 안전한 검색만을 따로 떼어서 별도의 웹사이트를 구축했다. 그러나 야후의 필터는 구글의 필터만큼 지나치게 까다롭지는 않은 모양이다. 야후 검색에서는 영국의 서섹스나 에섹스, 그리고 스컨쏘프를 찾아볼 수 있다.

1년 전에 이미 검색업계에서는 세이프서치가 너무 지나치다는 내용의 보고서가 출판됐는데도 불구하고 구글에는 계속해서 이런 문제가 사라지지 않고 있다.

하바드 대학의 버크먼 센터에서 2003년 4월에 발표한 보고서에서는 세이프서치에 들어있는 여러 가지 문제점들에 대해 자세히 설명하고 있다. 이 보고서는 일부 뉴스 기사들과 정치적 웹사이트들이 차단됐다고 보고했다.

구글의 비즈니스 개발 부서의 부사장인 데이빗 드러먼드는 세이프서치는 개발되던 당시부터 지나칠 정도로 필터링할 수 있게 설계됐다고 말했다. 드러먼드는 "세이프서치를 켜는 사람들은 어떤 것이 차단되었느냐 하는 것보다는 무엇인가 해로운 것이 몰래 들어오는 것에 대해 훨씬 더 많이 우려하고 있다"고 말했다.

어처구니 없는 차단 기능
CNET 뉴스닷컴에서는 수천 개의 웹페이지를 대상으로 세이프서치에 대한 평가를 수행했으며 어떤 웹페이지들이 포르노로 구분되는지 밝혀냈다. 그 결과는 거의 10년 동안 인터넷 필터에 있어서 문제가 되는 것과 똑같은 문제점들을 가지고 있다는 것을 보여준다. 예를 들면, 1996년 분석 작업에 의하면 사이버패트롤이 미 라이플 협회와 동성애자들의 웹이트들을 차단하고 있다는 것을 알 수 있다. 또한 사이버시터는 alt.feminism이나 soc.support.fat-acceptance와 같은 유스넷의 뉴스그룹들도 차단해버린다.

미국시민자유연합(ACLU)의 기술 및 자유 프로그램의 책임자인 배리 스타인하트는, "놀라운 일이 아니다. 도서관의 필터링에서 알 수 있듯이 정확하게 필터링하는 것은 매우 어려운 일이다. 아무런 관련이 없는 것들조차 필터링하게 된다. 차단 기능을 과신하게 되면 어쩔 수 없이 합법적인 컨텐트까지도 대량 차단하게 된다"라고 말했다.

1997년도에 이런 주제로 보고서를 발표한 이후로도 항상 문제점이 많은 필터들에 대해 경고를 하고 있는 ACLU에서는 공공 도서관들은 필터팅 제품들을 반드시 설치해야 한다는 연방법안을 바꾸기 위해 소송을 하기도 했지만 성공하지는 못했다.

스타인하트는 "결국 이 목록들도 독자적인 것들이다. 이 목록들을 직접 보지 않고서는 정확하게 어떤 것들이 차단되는지 알 수 없다. 공정한 판단을 위해서는 목록을 작성한 사람들의 말을 들어야 한다"라고 말했다.

한편 세이프서치에서는 ‘girls’라는 단어도 필터링하고 있다. 세이프서치에서는 사립여학교의 웹사이트인 GirlsSchoolOfAustin.org, 그리고 결혼식 드레스 가게인 DressyGirls.com과 러시아의 음악 밴드 사이트인 TatuGirls.com, 그리고 고양이에 관한 시를 주로 싣고 있는 웹사이트인 TheCalicoGirls.com 등도 잘못 차단되고 있는 예이다.

당연히 도메인명에 ‘Porn’이라는 단어가 들어가는 것도 문제가 된다. 세이프서치에서는 프랑스 해변가의 한 작은 마을인 포르니셰에서 관광사업을 활성화하기 위해 만든 Pornichet.org도 차단해버렸다. 그뿐 아니라 뉴욕에 있는 비즈니스 컨설팅 회사인 SpornGroup.com, 애견 용 줄을 판매하는 Sporn.com, 그리고 Pornk라는 밴드의 웹사이트인 PornkRocks.com을 비롯해서 아동 포르노의 반대를 위한 독일의 웹사이트인 Anti-Kinderporno.de 등도 차단되어 있다.

세이프서치에서 차단해버린 PartsExpress.com의 정보 시스템 책임자인 애런 울프는 자기네 회사는 도메인명에서 문제가 되고 있는 글자 배열들을 빼버릴 계획이라고 말했다. 울프는 "우리는 도메인명을 Parts-Express.com으로 약간 바꿀 예정이다"라고 하면서 이렇게 이름을 약간 바꾸면 "이메일 서버에 들어가 있는 스팸 필터도 피할 수 있을 것"이라고 덧붙였다. @
------------------------------------------------
흠.. 구글도 단순 string matching으로 filtering하다니... 실망이다.

댓글 없음:

댓글 쓰기