지난 포스팅에서 현재 많이 이용되고 있는 다양한 (명시적) 추천 시스템의 종류를 소개하였다. 이 포스팅에서는 지난 글에 이어서, 더욱 중요한 이슈인 '지속가능한 보편 추천 시스템 SURS'에 대해서 생각을 정리하려 한다. 즉, SURS가 과연 무엇이며, 어떻게 SURS를 만들 것인가? 그리고 기존의 시스템의/과의 진화 및 조화 등에 대해서 글을 전개하려 합니다.

 지속가능한 보편 추천 시스템 (SURS)
 무엇이 지속가능한 보편 추천 시스템인가? 쉽게 접근해보자. 분명 '지속가능성'과 '보편성'은 다른 의미를 가졌지만, 본문에서는 같은 의미로 쓰일 수 있을 것같다. 물론 지속가능성은 시간축에서의 보편성을 많이 내포하고 있고, 보편성은 공간축에서의 지속가능성을 많이 내포하고 있다. 즉, 시대나 공간에 좌우되지 않는 그런 일반성을 말해주는 공통점이 있다. (일방성은 아이러니하게도 특수성도 내포하고 있다.) 시간축에서 본다면 현재 참인 것이 과거에도 참이었고, 미래에도 여전히 참인 것이다. 그리고 공간상으로 말해서 한국에서 참인 것이 미국이나 유럽에서도 참인 것이다. 그래서 SURS는 시간의 변화에도 일관성을 가져야하지만 공간이 바뀌어도 통일된 모습을 보여줘야 한다. 인터넷 공간으로 축소시킨다면, 예를 들어, 다음 블로거뉴스에서의 추천시스템이 다음 아고라에서의 찬/반시스템과 원론적으로 같은 역할, 기능, 구조, 디자인,... 을 해야 한다. 

... 아직 글을 마치지 않았습니다.. 글을 적을 시간도 없고, 내용 전개도 어렵네요. 그래도, 앞으로 지속가능하고 보편적인 추천 시스템에 대해서 이 글을 업데이트함으로써 글을 계속 전갤할 예정입니다. 
SURS (Sustainable and Universal Ranking System)이어야 한다... 

추천시스템이 웹문서를 조회하는데 방해가 되면 안 된다..

SUD (Sustainable and Universal Design) or DfSU (Design for Sustainability and Universality)... 지속적이고 보편적인 디자인/설계...
 한국에서는 각종 리스트들 때문에 시끄럽다면, 미국에서도 또 하나의 리스트 - AIG의 고액 보너스 지급 명단 - 때문에 시끄럽다. 미하원에서는 50억달러 이상의 구제금융을 받은 기업들에 대해서, 25만달러 이상의 고액 보너스를 받는 경우 최대 보너스의 90%까지 세금으로 되돌려받는 법안이 이미 통과해서, 상원의 결정을 기다리고 있는 중에 있다. 그리고, 검찰 측에서는 이런 고액 보너스 지급자들에 대한 명단공개를 고려중이라는 소문도 자자하다. 그런 가운데 오늘 재미있는 기사가 하나 실렸다. 최고 고액 보너스를 받은 임원 10명 중 9명이, 그리고 금융사업 부분 임직원 중 보너스를 가장 많이 받은 20명 가운데서 15명이 보너스를 자진해서 반납하기로 의사를 밝혔다는 것이 기사의 요지였다. (관련기사보기) 이 기사를 보면서 머리 속에서 섬광처럼 스친 생각이 과학과 인터넷의 시대인 21세기가 깊어갈수록 과거 어느 시절보다 더 평판이라는 것이 사람들에게 중요해지고 있다는 것이다. 앞서 말한 AIG의 케이스도, 결국은 자신의 이름이 공개될 것이 두려워서 보너스 자진반납이라는 결론에 이르게 된 것이다. 그래서 21세기를 신평판의 시대라 부를만하다.

 인터넷 공간에서 떠도는 많은 소문들이 결국은 평판이라는 이름으로 귀결될 수가 있다. 우리는 이미 많은 '~녀' 시리즈들을 알고 있다. 개똥녀, 똥습녀, 된장녀 등의 많은 ~녀 시리즈가 인터넷 공간에서 생겨서 가공되고 배포되고 있다. 이런 다양한 ~녀 시리즈에 대한 자세한 스토리를 다룰 필요는 없지만, 결론은 '평판의 시대'로의 진입했다는 것이다.

 20/21세기에서 평판의 역할을 재조명해주는 사례로 방글라데시의 그라민은행을 들 수가 있다. 그라민 은행은 방글라데시의 대학교수 '무하마드 유누스'에 의해서 영세민들에게 소액대출을 제공해주는 기관이다. 그라민 은행의 주요 대출자들은 영세민들이다. 즉, 그들은 은행에서 대출을 받기 위해서 맡길 담보가 전혀 없다라는 점이다. 이런 환경에서 그라민 은행이 성공할 수 있었던 이유는 대출금을 제때 갚지 못하는 경우, 그들이 살고 있는 동네/지역 사람들에게 대출을 못 갚는 것에 대해서 공개적으로 알린다는 점이다. 대출금을 제대로 못 갚는다는 자존심을 건드리는 것이 그 무엇보다도 큰 담보 역할을 한 것이다. ~녀 시리즈가 그랬듯이, 그라민 은행의 성공 요인은 사람들이 자신의 평판에 그만큼 중요하게 생각한다는 점을 이용한 것이다. (결국, 그라민 은행의 성공은 무하마드 유누스에게 2006년 노벨 평화상이라는 영예를 안겨주었다.)

 실생활의 클론 공간으로써 인터넷에서 ~녀 시리즈와 같은 평판이 실제하듯이, 웹생태계에 내재한 평판 Intrinsic Reputation도 존재한다. 웹의 기본 속성으로 민주성이라는 주장은 이미 이전 포스팅에서 말했지만, 그와 함께 웹생태계의 비민주성에 대해서도 이미 다루었다. 웹문서의 랭킹 (노출순위)이라는 것이 (대부분의 경우) 민주적인 방법으로 순위가 정해졌지만, 순위가 정해진 그 시점부터 더이상의 민주성을 기대할 수가 없도록 만드는 메커니즘이다. 웹문서의 랭킹을 결정하는 방법인 페이지랭크 PageRank만을 떼놓고 생각해보면, 모든 웹페이지들이 다른 웹페이지들을 링크를 걸어줌으로써 추천/투표에 참여하는 민주성이 바탕이 되지만, 영향력이 높은 웹페이지의 추천/투표가 더 큰 가중치를 갖는다는 것도 이미 알려져있다. 웹페이지의 영향력이라는 것도, 페이지랭크 초기에는 페이지랭크의 재귀계산을 통해서 얻어졌지만, 랭킹 알고리즘이 진화하면서 페이지랭크에 의한 영향력 산정의 영향력이 감소하고 있다. 어떠한 이유에서던 신뢰도가 높은 사이트에 등록된 글이나 평판좋은 저자/게시자의 글들이 가지는 영향력이 더 크지고 있는 것이 사실이다. 만약 뉴욕타임스의 어떤 컬럼니스트가 본인이 적고 있는 이글과 똑같은 글을 적어서 뉴욕타임스 컬럼에 실는다면, 본 포스팅이 가지는 의미는 갑자기 몇 갑절 증가할 것이 당연해진다. 뉴욕타임스라는 신뢰도 높은 사이트가 가지는 영향력과, 뉴욕타임스 기자/컬럼니스트라는 신뢰도 높은 저자가 가지는 영향력이 단순한 개인 블로그와 일개 개발자인 본인의 신뢰도 및 영향도보다 크다는 것은 사실이기 때문이다. 이런 신뢰도나 영향도를 현재의 포스팅의 프레임에 맞춘다면 '평판'이라고 요약할 수가 있다. 지금 SURS 1편를 적은 이후에, 2편을 준비 중에 있지만, 웹의 다양한 추천시스템들도 평판을 최대한 활용하고 있다. 다음 블로거뉴스 (다음뷰)의 오픈에디터들의 추천행위가 일반 대중들의 추천행위보다 높은 가중치를 받는다는 것도 주지의 사실이며, 다음 아고라에 어떤 유명인사 (또는 단체)가 글을 적는다면 평소보다 높은 관심을 받고 조회수를 기록하게 된다는 것도 우리는 이미 알고 있다. 물론 블로거뉴스에서도 이전 히스토리를 바탕으로 특정 블로거들의 글이 일반인, 특히 루키 블로거들,의 글보다 높은 관심을 받는다는 것도 경험상으로 알고 있다. 인터넷이라는 신평판 사회에서 각 개인의 평판이라는 것이, 이렇듯 글을 적을 때나 추천을 할 때, 또는 심지어 단순히 글을 조회할 때에도 영향을 미칠 수가 있다. 친구가 적은 글보기, 친구가 추천한 글 보기, 친구가 읽었던 글 보기... 등등의 소셜네트워킹을 이용한 미디오 배포행위도 일종의 친구라는 친밀감/동질성을 바탕으로 한 평판의 종류가 되고,... 그리고 앞으로 명사가 읽은/추천한 글 (기사) 보기와 같은 서비스도 조만간 등장할 것이다. 대표적인 경우가, 노전대통령이 본 기사들, 스티브잡스가 읽었던 기사들, 교황이 추천한 기사들과 같은 형태의 서비스가 오늘 바로 등장하더라도 전혀 이상하지 않다. 이 역시 조회자/추천자의 유명성이라는 평판에 기댄 서비스가 될 것이다. 

 분명 인터넷의 등장은 우리에게 익명성과 무한한 자유를 주었지만, 그와 함께 평판의 중요성을 다시 강조하고 있다. 인터넷의 시대는 평판의 시대이다. 평판이라는 것이 때로는 족쇄로 작용할 수도 있고, 영향력/유명성/신뢰성 등으로 작용할 수도 있다. 이 평판의 시대에 당신이 어떻게 적응하고 활용하고 가꾸느냐에 따라서 당신의 가치가 더욱 빛날수도, 또는 세상에서 잊혀질 수도 있다. 지속가능한 웹생태계란 그 속에서 숨쉬는 우리들의 평판 역시 지속가능한 형태로 보존해줄 수 있는 그런 환경이 아닐까 생각한다.

 "신평판의 시대에 오신 것을 환영합니다. Welcome to Neo-Reputation Era."


** 본 포스팅은 2009년 3월 19/20일에 있었던 MBC의 100분토론 '공권력과 인권'에서 잠시 다루었던 다음 아고라의 특정게시판/게시물의 조회수 조작에 대한 소고, 및 이런 조회수 조작 어뷰징에 대한 기술적인 이야기만을 다룹니다. 일반 어뷰징, 특히 스팸,에 대한 내용은 아닙니다.
** 본 포스팅에서 제시한 내용들은 특정 업체에서 사용중인 방법에 대한 설명이 아닙니다. 대부분 상식적인 수준에서 추론된 내용이므로, 각 회사에서 실제 운영중인 방법이 아님을 미리 밝힙니다. 단순 참고용 설명이므로 오해가 없으시길 바랍니다.

 서론
 몇 일전에 경찰에서 다음 아고라의 특정 게시물의 조회수를 비정상적으로 높인 네티즌 3명을 인터넷 여론조작 협의로 압수수색을 단행했다는 기사가 나왔다 (관련 기사들). 그리고 어제/오늘 100분토론에서 고 장자연씨와 관련된 연예계의 비리/이면에 대한 충분한 준비가 되지 못한 상태여서, 위의 경찰의 과잉 선재 대응에 대해서 적법한 공권력의 투입인가 아니면 일반 국민들의 표현의 자유를 침해하는 인권유린인가에 대한 토론으로 주제를 급하게 바꾸었다. 토론의 도입부를 제대로 지켜보지 못했지만, 위의 인위적 조회수 조작에 대한 기술적인 내용을 좀 다룬 것같아서, 이와 관련된 몇 가지 이야기를 다루려고 한다.

 조회수 조작 방법
 특정 게시물의 조회수를 높인다는 의미는 일반인들에게 그 게시물이 많은 사람들의 관심을 받고 있는 거구나라는 착각을 일으킬 염려는 충분히 있다. 지난 SURS 포스팅에서 다룬 암묵적 추천의 한 형태로 조회수를 들 수가 있다. 그런 의미에서 조회수를 높인다는 행위는 어떻게 보면 기만행위일 수도 있다. 그렇지만, 본인의 다른 블로그한 포스팅에서 인위적으로 조회수를 높이는 행위는 역으로 글의 품질/랭킹요소를 낮출 수도 있음을 밝혔다. 즉, 게시물의 랭킹 모델에서 추천수, 조회수, 댓글수와 같은 숫자들이 높게 나오면 당연히 좋은/관심있는 게시물로 인정을 받을 수가 있지만, 전체 조회수에 대한 추천수의 비율과 같은 조회수 조작에 따른 상쇄효과도 있음을 밝혔다. 즉, 추천수가 증가하지 않는 단순한 조회수 증가는 글의 신뢰성에 상당한 침해를 받을 수가 있다는 요지이다. 어쨌던, 조회수 조작에 따른 효과 여부 (예, 여론조작여부, 다음에 대한 업무방해여부, 또는 표현의 자유여부) 등에 대해서는 다른 각계각층에서 다양한 의견을 개진할 것으로 보이니, 본 포스팅에서 더 깊이 다룰 필요도 없고 본인은 그런 능력도 없다. 그래서 본론인 어떻게 조회수를 조작하는가로 넘어가겠다.
 조회수 조작의 방법은 간단하고 저렴한 것에서부터 복잡한 것에 이르기까지 다양하다. 가장 간단한 조회수 조작의 방법은 게시판의 글목록에서 해당 글을 계속 클릭해서 들어가는 것이다. 이런 조작에 들어가는 시간과 노력에 비하면 효과가 적을 수가 있는 원시적인 조회수 조작방법이 아닐까 생각한다. 여기에서 조금 진화한 모델이 가족/친구 등의 지인들을 동원해서 게시물을 계속 조회하는 방법이 있겠지만, 이는 단순히 참여 인원을 증가시킨 것 외에 특별할 것은 없는 것같다. 좀 더 진화를 한다면 해당 게시물에 대한 URL을 낚시성으로 메일을 보낸다거나 다른 게시판들에 도배를 해서 일반인들이 접속하도록 유도하는 방법도 있겠다. 두번째로 생각할 수 있는 방법은, 100분토론에서도 언급되었지만 현재 페이지에서 F5키를 눌러서 계속 reloading/refreshing을 시켜서 조회수를 높이는 방법도 있다. 보통 오락기의 버튼을 계속 누르고 있으면 연사기능이 작용하는 것과 같은 원리이다. 손으로 계속 누르고 있거나 동전을 키보드에 끼워넣는다거나 아니면 단순히 무거운 물건을 키보드에 올려놓는다거나 등의 기술적인 방법은 다양할 것이다. 이런 경우 보통 조회수 로그에 일정한 패턴 (시간간격)으로 기록이 남기 때문에 조작여부를 쉽게 판단 및 방어할 수 있을 것이다. (그러나 뒤에서 말하겠지만 개념적으로 쉽게 적발가능하지만, 기술적으로 어려운 점이 있다.) 그리고, 마지막으로 가장 진보된 형태는 조회수 조작 프로그램 또는 로봇을 사용하는 방법이다. 프로그램의 작동원리는 사람들이 해당 게시물을 계속 조회한다거나 리로딩시키는 방법과 특별히 다를 것은 없다. 단지 기계가 해당 페이지를 접속한다는 점만을 제외한다면. 그리고, 이런 프로그램들의 경우 조회 간격 (시간텀)을 임의로 조절할 수 있기 때문에, 수동적인 단순 리로딩보다는 찾아내기가 어렵다. (물론 불가능하다는 것은 아니다.) 이런 조작 프로그램을 이용하는 경우에 특히 문제가 되는 것은 좀비PC와 결합될 때이다. 좀비PC란 일반 컴퓨터들이 바이러스 또는 봇에 감염되어 사용자들이 사용하지 않는 휴면 상태에서 원격컴퓨터에 의해서 제어되어 마치 좀비와 같이 행동한다고 붙여진 이름이다. (나쁜 의미에서 좀비PC로 불리지만, 학계/연구 분야에서는 중앙집중식의 슈퍼컴퓨터를 대체시키는 분산/그리드 컴퓨팅 Distributed/Grid Computing의 한 형태로 많은 연구가 이루어지고 있는 분야이다.) 좀비PC들에 의해서 분산 공격을 받는다면 조회수 조작의 파급력도 커질 뿐만 아니라, 특정 IP에서의 공격이 아니기 때문에 조작을 적발하기가 더 어려워진다. (일반적으로 DDoS로 알려진 기술과 유사점을 보인다.)

 어떻게 조회수 조작을 적발할 것인가?
 조회수 조작이 위와 같이 간단하듯이, 역으로 조회수 조작을 적발하는 것도 간단하다. 즉, 특정 위치 (IP 등으로 추적)에서 특정 게시물을 상식 외로 많이 조회하는 경우를 조회수 조작으로 협의지으면 되는 것이다. 특히 조회의 간격 (시간텀)이 거의 일정하다는 추가적인 정보가 있다면 거의 확실한 물증이다. 또는, 평소와 달리 특정시간대에 특히 많은 조회가 몰렸다면 이런 경우도 조회수 조작으로 의심을 가질 수 있다. 특히 좀비PC와 봇에 의한 조작의 경우 접속IP와 시간텀이 다양하기 때문에 앞서 제시한 방법으로 쉽게 찾아낼 수가 없다. 뿐만 아니라 최근에는 사용자들의 IP 등을 임의로 변경해주는 프로그램 또는 업체들이 있기 때문에 상식선에서 조회수 조작을 찾아내기가 더욱 힘들어진다. 그래서 특정시간대에 비정상적으로 많은 조회가 이루어진다면 이런 경우에 한해서 조회수 조작을 의심할 수가 있다. 그러나 프로그램을 사용하는 경우, 접속/조회시간을 랜덤하게 변경하고 그 간격을 넓게 잡을 수 있기 때문에 이 방법에도 분명 한계가 있다. (그러나, 시간 간격을 넓게 잡는다면 조회수 조작의 효과가 없을테니...) 접속지역 (IP 등)도 속이고 접속방법도 속이고 접속시간간격도 속이는 등의 지능화된 조회수 조작이라면... 쉽게 찾기는 어려울 듯하다. 물론, 지난 몇일, 몇주, 몇달, 심지어 몇년 간의 누적 데이터를 분석한다면 전혀 불가능한 일은 아니지만, 뒤에서도 다루겠지만 실효성이 많이 떨어질 것이다.

 조회수의 기록
 위에서 말한 조회수의 조작을 찾아내기 위해서는 사용자들의 접속/조회에 대한 기록을 남겨둬야지 가능하다. 보통 로그 Log라는 파일의 형태로 사용자들의 행동 패턴이 기록에 남는다. 특히 Apache 웹서버를 사용하는 경우, 기본적으로 apache log가 서버에 남게 된다. 그렇지만 apache log는 가장 기본적인 최소한의 로그만을 남겨놓기 때문에 향후에 활용성이 많이 떨어지는 면이 있다. 이런 파일 형태 뿐만 아니라, 서비스의 시간을 줄이기 위해서 DB에 다양한 정보를 남기는 경우도 많이 있다. 파일형태의 로그의 경우 로그를 파싱해서 유용한 정보 (예, 특정인에 의한 조회수)를 찾아내는데 시간과 비용이 많이 들어가지면, DB형태의 로그는 구조화되어있을 뿐만 아니라 DB에서 제공해주는 다양한 집계 기능으로 유용한 정보를 쉽게, 그리고 빠르게 얻어낼 수 있는 장점이 있다. 그런데, DB라는 것이 모든 정보를 무한정으로 쌓아둘 수는 없다. 파일로그보다 더 많은 디스크 공간을 차지할 뿐만 아니라, 지나치게 큰 정보 (많은 columns)를 많이 (많은 rows) 가지고 있다면 DB의 퍼포먼스를 떨어뜨려서 처음에 가졌던 DB의 장점을 상쇄시키게 된다. 그런 점에서 현재 많은 회사/서비스들에서 실시간 서비스를 위해서 모든 접속/조회 정보를 DB에 누적해서 다시 조회/가공하는 방법은 그리 많이 사용하고 있지 않는다. 대신에, DB에서는 조회에 대한 메타정보만 기록을 하고 상세정보는 파일로그에 남기는 하이브리드 형태로 운영하는 경우가 많다. 예를 들어, 특정 게시물에 누군가가 접속/조회를 하면 view_cnt와 같은 변수의 값을 +1씩 증가시켜서 DB에 기록을 남겨두고, 그 사람의 접속기록 (접속 IP, 접속시간, referer 등)의 상세기록은 파일로 차곡차곡 쌓아두는 방법을 취하게 된다. 이렇게 되면, 실시간 서비스에서는 특정 게시물의 조회수 등을 빠르게 보여주고, 문제가 될 때만 파일로그의 상세 정보를 검사해보면 된다. 이런 하이브리드 형태의 로깅 운영의 부작용으로는, 특히 조회수 조작이라는 측면에서, 누가 언제 몇 번 조회/접속했는지에 대한 정보를 실시간으로 감시하기 어렵다는 점이다. 이런 측면에서 업체들에서 (실시간) 죄회수 조작을 막는 것이 거의 불가능하다고 주장하고 있다. 물론, 또다른 형태의 하이브리드 방법을 도입해서 적발/방어가 충분히 가능하지만 더 많은 비용이 소요되기 때문에 어려움이 있을 따름이다. 즉, 조회메타정보에 대한 DB와 상세한 파일로그와 함께, 상세한 조회정보를 DB에 한시적으로만 저장해두는 방법이 있다. 추측건데, 많은 업체들이 조회수 조작이라는 부작용 때문에 이런 형태로 실시간 대응 전략을 세웠으리라 본다. ... 이 단락을 요약하면, 분석의 용이성 및 신속성의 측면에서 DB를 활용하지만 DB에 저장될 수 있는 데이터의 용량에 한계가 있고 실시간 서비스를 위해서는 최소한의 데이터만을 DB로 남기고 있기 때문에 DB로그가 조회수 조작 대응에 실효성이 많이 떨어진다.

 P.S.
 앞에서 간단히 조회수 조작을 찾는 방법에 대해서는 이미 다루었다. 특정 IP를 사용하는 경우 또는 특정시간대에 활동하는 경우에 대해서 조회수 조작을 충분히 확인할 수가 있다. 그렇지만 이런 기본적인 방법 외에도 조회수 조작 적발 또는 조작된 조회수의 원상복구 등에 대해서도 다양한 전략들이 있을 것이다. 실시간으로 조회수 조작 사용자를 찾아서 해당 IP를 막는다는 등의 실시간 대응 뿐만 아니라, 시간이 경과한 후에 아파치로그 등을 분석해서 불필요한 조작된 조회수를 DB 메타정보에서 제거하는 후속 대응도 현재 운영중인 걸로 알고 있다. 재미있는 것은 후속대응으로 인해서 때로는 조회/추천수가 감소하는 경우도 존재할 수도 있다. 업체 측에 의한 조회/추천수 조작설 등의 다양한 음모론이 펼쳐질 여지가 충분히 있는 것같다. 그리고 또 다른 음모설에 대해서 언급하자면... 현재 다음 아고라 게시판과 같은 경우 여러 대의 컴퓨터를 병렬적으로 연결시킨 분산컴퓨팅을 활용하고 있다 (일반적으로 하나의 서비스를 위해서 최소 두대의 서버가 필요하다. 분산처리 뿐만 아니라, 서비스 백업을 위해서). 그래서 각 서버별로 별도의 로그기록을 남겨두고 있기 때문에, 실시간으로 모든 서버의 로그 데이터를 취합하기란 사실상 불가능하다. 이런 분산 데이터의 싱크 문제로 인해서 조회/추천수가 일시적으로 증가/감소하는 현상이 종종 발생할 수도 있다. (게임에서 잠시 랙이 걸리는 것과 같은 현상)

 P.S.2
 아파치로그에 대한 기술적인 내용은 생략은 생략하겠다. 사용자들의 IP, 접속시간, referer 등의 정보들이 보통 남게 된다. 아파치로그에 대한 자세한 사항은 아파치 홈페이지에서 참조하기 바랍니다.
 이전 "인터넷과 민주주의"라는 포스팅을 통해서 현재 사이버 스페이스에 존재하는 다양한 (명시적) 추천 시스템을 개괄하였다. 그런 추천 시스템들은 민주적 속성과 비민주적 속성을 동시에 가지고 있다고 말했다. 이 포스팅에서는 이런 추천 시스템에 대해서 더 자세히 알아보고, 어떻게 하면 이런 추천 시스템이 지속가능하고 보편적이 될 것인가에 대해서 논하겠다. 단순히 웹 생태계에 존재하는 다양한 정보나 정보 출처들에 대한 랭킹을 정하는 문제에 대해서 다루는 다양한 글들이 존재한다. 본 포스팅에서는 그런 일반적인 웹문서의 랭킹에 초점을 맞춘 글이 아님을 미리 밝혀둔다.

 추천 시스템의 종류: 명시적 vs 암묵적 vs 하이브리드
다양한 추천 시스템

다음에서 활용중인 다양한 추천 시스템들...

 추천 시스템을 채택/활용한 많은 서비스들을 우리는 이미 많이 사용하고 있다. 대표적인 경우가 다음의 아고라에서 글의 논지에 대한 찬/반 투표, 블로거뉴스의 추천제도나 tvPot의 와우포인트, 인터넷 서점에서의 개별 도서의 사용자 리뷰 점수, 메카니즘은 조금 다르지만 뉴스기사나 블로그/게시판의 글들에 다는 댓글 시스템, 게시판의 목록에서 특정 게시글을 선정해서 조회하는 행위라던가 검색 결과에서 특정 문서/이미지 등을 선별해서 확인하는 행위, 마음에 드는 문서들을 스크랩한다거나 하이퍼링크를 걸어두는 행위, 관심이 있는 사이트를 자신의 RSS 목록에 추가하여 구독한다거나 링크 목록 (통하는 블로그나 친구 목록 등 포함)에 웹사이트를 등록하는 행위, 딜리셔스에 태깅을 하거나 개인 브라우저에 북마킹을 하는 것, 때로는 특정 문서를 개인 하드디스크에 저장을 한다거나 프린트하는 것, 그리고 특정 문서를 조회하는데 소요되는 시간 등도 모두 추천 시스템의 일종인 것이다. 찬/반 투표, 추천제, 포인트제와 같이 사용자들이 명시적으로 추천하는 행위가 드러나는 경우를 명시적 추천 시스템 Explicit Feedback이라 하고, 검색페이지에서 특정 결과를 조회한다거나 북마킹을 하는 등의 행위를 암묵적 추천 시스템 Implicit Feedbak이라 한다. 물론, 댓글을 달거나 스크랩을 하는 행위 등은 명시성과 암묵성의 중간 정도에 위치한 하이브리드 추천 시스템이라 불러도 될 것같다. 경우에 따라서 암묵적 추천 행위가 더 흔히 발생해서 많은 누적 데이터들이 존재하는 경우도 있지만, 때론 사용자들의 행동 패턴을 쉽게 잡아낼 수가 없어서 이런 암묵적 데이터를 모으기 힘든 경우도 있다. 그리고, 그런 행위들을 분석하는 방법이 쉽지가 않기 때문에, 일단 이 포스팅에서 암묵적 추천 시스템에 대해서는 논외로 하겠다. (물론, 추후에 암묵적 추천 시스템에 대한 더 구체적인 사례와 분석 방법 등에 대해서 다룰 예정이다. 본인이 회사에서 담당하고 있는 많은 업무들이 이런 암묵적 추천 피드백을 분석하는 내용이기 때문에, 그리고 실제로 그런 분석결과가 서비스에 많이 반영되어 있기 때문에, 이 내용을 그냥 넘어갈 수는 없는 노릇이다. 그리고, 옆의 그림은 현재 다음 내의 여러 서비스에서 활용하고 있는 다양한 추천시스템의 예시를 보여주고 있다. 순서대로, 다음 아고라의 찬/반 투표, 블로거뉴스의 추천제, tvPot의 와우포인트제, 신문기사의 이메일송신/프린트/스크랩 시스템이다. 앞의 3개의 경우 명시적 추천시스템의 대표적인 예시가 될 것이고, 마지막의 스크랩의 경우 명시성에 대한 구분이 조금 모호하다. 스크랩 회수나 이메일 공유 등의 회수를 명시적으로 기입해서 정보로 활용하기 때문에 명시적이라 볼 수도 있지만, 일반적으로 collaborative filtering에서는 북마킹을 한다거나 프린트를 하는 등의 행위를 암묵적 추천으로 간주한다.

 명시적 추천 시스템의 작동에 따른 구분
 앞 단락에서는 추천의 명시성에 따른 추천 시스템을 구분하였다면, 이번 단락에서는 명시적 추천 시스템에서 추천 점수 관리 방법에 따라서 어떤 종류의 추천 시스템이 있는지에 대해서 간단히 설명하려 한다. 첫째, 가장 대표적인 추천 방법은 블로거뉴스나 digg.com에서 사용하듯이 1/0 방식의 추천이다. 즉, 문서의 내용 (주제, 논지, 디자인 등의 모든 또는 일부)이 마음에 드는 경우에 추천 버튼을 누름으로써 해당 포스팅은 포인트가 증가하고, 그렇지 않는다면 현 상태로 머무르게 되고 시간이 지남에 따라서 자연스럽게 퇴출되는 형태를 취한다. 와우포인트도 이름과 형태는 조금 달라보이지만, 1/0 추천의 대표적인 사례로 볼 수가 있다. 두번째의 경우는  +1/0/-1 방식의 추천이다. 대표적인 사례가 아고라 토론에서 찬/반 투표를 예로 들 수가 있다. 이런 경우 마음에 드는 문서의 경우 찬성 (+1) 추천을 하지만, 반대 의견이거나 또는 (극단저으로 표현해서) 문서의 존재 가치가 없다고 판단되는 경우 반대 (-1) 추천을 한다. 물론, 평이한 문서에 대해서는 추천을 하지 않음으로써 자연스럽게 0의 값을 가지게 된다. 그러나, 일반적으로 조회수에 대한 추천수의 비율에 따른 문서의 품질을 평가할 수 있기 때문에 0의 추천이란 일종의 반대 추천으로도 볼 수가 있다. 방향성을 가진다는 측면에서 1/0 방식보다 진화된 추천으로 볼 수가 있다. 일반적으로 +1/-1을 각각으로 구분해서 찬성베스트/반대베스트로 운영을 할 수도 있고, (찬성 - 반대)에 따른 운영, 또는 (찬성 + 반대)에 따른 운영 (호응도) 등의 다양한 운영이 가능하다. 세번째 추천 시스템 역시 1/0의 발전된 형태로 N/.../1/0 방식의 추천이다. 보통 도서, 상품, 판매자 등에 대한 비뷰/평을 적을 때 점수제 시스템에서 많이 이용되고 있다. 보통의 경우 N은 5나 10점 스케일로 운영된다. (N값은 magic number (7)에서 벗어나지 않는 것이 좋다.) 이 시스템의 장점으로는 찬성의 정도를 숫자로 표시할 수 있다는 점이다. 그렇지만, 이론적으로 최하점수가 0점이지만, 실제 서비스 운영 단계에서 최하점수가 1점이라 헛점이 있다. 즉, 1/0에서는 추천하지 않으면 단순히 0점으로 가정할 수 있으나, N//0의 경우에는 추천하지 않는다는 것이 단순히 0점이라고 가정할 수가 없다. (예를들어, 상품을 구매해서 사용하기 전에는 (실제) 평점을 매길 수가 없다.) 그래서, 총점/평점을 집계할 때, 단순 조회인 0의 추천이 집계가 반영되지 않는 경우가 대부분이다. 1/0에서도 추천 버튼을 두번이상 누름으로써 N/0 방식으로 구현이 가능하지만, 추천의 신뢰성이나 민주성을 위해서 보통 1회로 한정짓는 경우가 많다. 네번째로 볼 수 있는 형태는 +1/0/-1과 N//0 방식의 합쳐진, +N//0//-N의 추천 방식이다. N//0의 방식에서는 마음에 들지 않는 문서의 경우 평가를 하지 않거나 1점 등의 낮은 점수를 부여하겠지만, +N//-N 방식에서는 품질이 낮은 경우 명시적으로 마이너스 (-) 점수를 부여할 수가 있다.

 사이버 공해 (정보 공해)
 공해 Pollution란 무엇인가? 백과사전/국어사전의 정의는 다음과 같다.

인간의 생산활동과 소비과정에서 환경이라는 자원의 사용, 파괴, 소모로 인해 불특정 다수에게 건강과 생활환경에 침해를 주는 재해현상 [다음 백과사전]
또는
산업이나 교통의 발달에 따라 사람이나 생물이 입게 되는 여러가지 피해, 자동차의 매연, 공장의 폐수, 여러 종류의 쓰레기 따위로 인하여 공기와 물이 더렵혀지고 자연환경이 파괴되는 문제 따위 [다음 국어사전]

 현재 "생태계 파괴 원인 = 공해"라는 등식이 성립한다. 전통적으로 천재지변도 생태계를 파괴한다. 그러나, 인재에 의한 천재지변에는 많은 비난 여론이 따르지만, 자연적인 천재지변은 대체로 숙명으로 받아들인다. (물론 그런 숙명에도 맞설려는 시도가 줄곳 이어지고 있지만...) 앞의 백과사전/국어사전의 정의를 요약하자면 공해란 '인간의 활동의 비정상적인 부산물로 인한 환경 파괴' 정도로 요약할 수 있을 것같다. 같은 논리를 웹생태계에 적용해보면, 웹생태계의 공해 (또는 정보 공해, 사이버 공해)란 사이버 스페이스에서의 인간의 활동이나 그에 따른 부산물들로 인한 웹생태계의 파괴 정도로 정의내릴 수 있다. 이런 정보공해의 종류에 대해서는 '웹생태계 파괴자들' 편에서 이미 개관하였다. 앞에서 공해를 정의할 때, '비정상'적이라는 용어를 사용하였다. 자연의 한 구성요소로써 정상적인 인간 활동의 부산물들 (인간의 신진대사 등에서 발생하는)에 대해서는 특별히 공해라는 표현을 쓰지 않는다. 그러나 비정상적인 부산물들을 특히 공해라고 말한다. 비정상적이라는 말은, 자연에서 얻어지는 것이 아닌 인공합성물 (공장 등에서 발생하는 화학 오염물질 등)이나 "과도한" 생활 쓰레기 등을 지칭한다. 이런 관점에서 웹생태계에서의 공해를 재정의하면, 인공합성물에 해당하는 경우로는 인신공격이나 허위사실 유포 등의 위법/범법 컨텐츠, 개인의 사생활을 해치는 컨텐츠, 성인 도박 등의 미풍양속을 해치는 컨텐츠 등의 악성 게시물들이 이에 해당될 수 있으며, 후자의 과도한 생활쓰레기에 해당되는 경우는 불필요한 (때론 혐오스럽고 아름답지 못한) 정보의 홍수 (대량 중복)를 들 수가 있다. 그런데, 이번 포스팅에서는 특히 (불필요한) 정보의 중복문제에 초점을 맞추려 한다.

 같은 정보가 끊임없이 재생산되어서 사용자들에게 제공된다면 그 정보의 건전성 및 유익성과 무관하게 사용자들은 공해로 인식한다. 만약 당신이 구글이나 다음 등의 검색에서 '공해'를 검색한 경우, 모든 검색결과가 위키피디어에서 제공하는 (또는 위키피디어의 것을 복제한) 공해에 대한 사용자 정의만으로 이루어졌다면 어떻게 되겠는가? 분명 위키피디어의 정의는 유용한 정보이지만, 나머지의 똑같은 정보는 더 이상 정보로써의 효용가치가 없고 쓰레기 정보가 된다. 또는 당신이 조회한 특정 게시물이 불필요한/무의미한 단어들의 반복으로만 이루어졌다면, 또는 상업/낚시성 메일이 계속 온다면 이 또한 정보공해로 인식할 것이다. 그렇다면, 이런 중복성 공해를 해결할 방법은 없을까? 후자에서 예시로 든 악성 중복 공해의 경우 게시자의 자발성과 신뢰성에 의존할 수 밖에 없거나 시스템 (스팸 필터링 시스템이나 사용자들의 자정 노력/신고 활동 등)에 의해서 제거 또는 제재하는 것 외에는 특별한 방법이 없는 듯하니, 논의의 대상에서 제외하고 본 포스팅에서는 유용한 정보의 중복 문제에 초점을 맞춘다. 

 (유용한) 정보의 중복의 대표적인 사례는 '펌질'로 알려진 '스크랩'이다. 초기의 인터넷 포털 등에서는 활성화를 위해서 스크랩 행위를 권장했던 측면을 부인할 수가 없다. 그리고, 특별히 웹문서의 품질을 평가할 수 있는 방법이 없기 때문에 (이전 포스팅의 페이지랭크나 추천시스템도 웹문서 품질을 보증해주지는 못한다), 사람들에 의해서 판단된 정보의 질, 즉 스크랩의 회수,에 따른 웹문서의 품질평가라는 달콤한 유혹으로 현재도 인터넷 포털들은 스크랩 행위의 부당/부정성에 대해서 강력하게 제재를 가하지 못하는 딜레마에 빠져있기도 하다. (국내에서는 대표 포털인 네이버가 가장 큰 오명 (펌로그)을 받고 있지만, 다음에서도 비슷한 현상이 부각되지 않았을 뿐이고, 네이트의 사이월드의 경우 스크랩 행위를 소셜네트워킹이라는 미명 아래 장려했던 정책이다.) 스크랩 행위를 조금 더 옹호하자면, 1) 웹문서의 품질 평가의 지표로 활용될 수가 있다 2) 유용한 웹문서의 대중화/전달에 기여한다 등으로 요약될 수 있지만, 1) 정보의 과도한 중복 문제 뿐만 아니라 2) 웹문서의 저작권 침해와 3) 애초 웹문서에 포함되었던 비밀정보 (개인정보 등)의 무분별한/의도치 않은 공개 등의 더 큰 문제점들이 있다.

 정보/지식의 유틸리티화
 논조가 이상하게 보일 수도 있으나, 이런 중복/스크랩의 문제를 해결하기 위한 방법으로 (온전한) 스크랩을 제시하려 한다. 해결책으로 제시하는 스크랩은 현재의 무분별란 '펌질'이 아니라, 정보/지식의 유틸리티화를 통한 정보 (전달)의 규격화/인프라화, 정보의 재사용, 그리고 정보의 자원화를 뜻한다. 구체적인 논의에 앞서 유틸리티 utility (public utility)란 전기, 상하수도, 도시가스 등과 같이 개인이 생산, 관리하기가 어려운 자원/시설 등의 공공재로써, 개인의 사용량에 따라서 금액을 차등 지불하는 방식을 취한다. 그래서 정보/지식의 유틸리티화란 거대한 정보/지식 아카이브 (위키피디어와 같은)를 구축하여 누구던지 이 지식 아카이브에 접근해서 정보를 열람하고 (규격화) 정보를 재정의 및 활용하고 (재사용) 또 경우에 따라서 지식사용량/가치에 따른 정보료를 제공하는 (자원화)를 뜻한다. 

 먼저, 정보 (전달)의 규격화란 단순히 누구나 자유롭게 열람할 수 있는 인터페이스 및 권한을 부여하는 것 뿐만 아니라, 이런 유틸리티 지식/정보를 활용하는 방법에서의 (사용) 규칙/가이드라인 등의 제반사항의 규격화의 의미를 내포한다. 일례로, CCL (Creative Commons) 등의 저작권 표시 규정을 준수한다거나 모든 정보를 전부 스크랩해서 자신의 공간에 넣는 것이 아니라 내용의 일부 (시작부분 또는 요약정보 등)만을 자신의 공간에 제시하고 나머지 정보에 대해서는 원문을 링크해주는 방식 등을 취하는 것이다. 이런 스크랩의 사회적/암묵적 합의의 도축과 규칙의 제정, 그리고 이런 합의된 규칙의 시스템화하는 것 등이 정보의 규격화이다. 

 두번째로, 정보의 재사용은 앞서 제시한 합의된 규칙 내에서 지식 아카이브의 정보를 자유롭게 활용하는 것을 뜻한다. 즉, 지식 아카이브의 정보를 자유롭게 열람 및 자신의 공간에 일부 삽입할 때, 원저작자 및 출처를 명확히 밝히고 원문전체가 아닌 요약정보만 삽입하는 등으로 정보를 재사용해야 한다. 그리고, 일부 사설 아카이브의 정보를 이용할 경우 (개인 블로그나 단체의 카페/사이트 등)에도 앞서 말한 요약정보이용 및 출처 명시 등의 규약을 따르는 것뿐만 아니라, 원저작물에 포함된 프라이버시 (개인정보)를 함부로 누설하지 않는다는 등의 자기 규제도 필요하다. Note: 정보의 재사용은 정보의 복재와 구별된다. 정보의 복재는 단순히 원문 내용의 일부나 전부를 카피해서 자신의 공간에 옮겨놓는 것이지만, 이 포스팅에서 제시하는 정보의 재사용은 원문의 내용을 참조하는 것이다. 즉, 단순히 원문의 텍스트가 옮겨지는 것이 아니라, 원문의 내용을 조회할 수 있는 코드가 심겨지는 것이다. 예를 들어, 이 포스팅의 시작부분에 다음 백과/국어사전에서 제공하는 공해의 정의를 단순 복사/복재하여 사용하였다. 위의 정의는 이 포스팅의 일부로 단순히 옮겨진 것이다. 그러나 정보의 재사용 프레임워크에서는 자바스크립트와 같은 코드가 포스팅에 심겨져서 다음 백과/국어사전의 내용을 단순히 현재 화면에 보여주는 것이다. 구글의 애드센스블로그 위젯 등과 같은 형태의 참조형 디스플레이라고 생각하면 된다.

 마지막으로, 정보의 자원화는 필요시 원저작자에게 저작행위에 대한 대가를 지불하는 것이다. 현재 정품 도서나 음반을 구입하는 적극적인 정보이용료의 제공이 대표적인 사례가 될 수가 있다. 웹생태계에서도 보고서나 다양한 문서/템플릿 등을 구입해서 열람하는 것도 이런 정보 자원화의 일원이고, 위키피디어 등의 지식아카이빙 작업 지원을 위한 도네이션을 하는 방법도 있다. 그리고, 지식 정보료는 단순히 통화단위로의 과금 뿐만 아니라, 오픈소싱과 같이 기존 정보를 더욱 유익한 정보로 재가공해서 타인들도 자유롭게 활용할 수 있도록 재공유/재유틸리티화하는 행위 등을 포괄한 개념이다.

 우리는 웹생태계에 이미 많은 지식을 보유하고 있으며 앞으로 계속 추가해나갈 것이다. 그렇지만 무분별하게 중복된 내용들이 존재한다면 이는 정보의 유용성을 넘어 정보의 공해로 받아들여질 것이다. 그리고 사회적 합의를 어기면서까지 이루어지는 정보의 중복은 더욱 큰 문제점이다. 새로운 대안으로 (공공재) 지식/정보에 대해서는 아카이빙, 자유 접근, 이용 규칙 준수, 정당한 정보료 제공 등의 지식/정보 유틸리티화를 제안한다.

 ** 전기, 상하수도, 가스 등의 현물 유틸리티는 전통적으로 좋은 사업 기반이 되었고, 최근 인터넷의 발전과 함께 데이터 스토리지나 웹 서비스/애플리케이션 등의 정보 인프라 유틸리티는 현재의 각광받는 사업 분야이다. 같은 맥락에서 정보/지식 자체의 유틸리티도 앞으로 유망한 사업 분야임에 틀림없다.
 지난 포스팅에서, 지속가능 웹생태계의 특징 또는 원동력으로 웹생태계의 민주성에 대해서 말했다. 흔히들 인터넷이라는 가상의 세계가 현실 세계에서의 민주주의를 확장시켰다고 말한다. 인터넷 게시판을 통해서 말하고 즐기는 자의 한계에서 벗어나서 그들의 현실 정치 참여에 대한 가능성은 지난해에 입증되었다. 2008년도의 대한민국은 미국산 쇠고기 개방 및 그 후의 촛불집회 등을 통해서 단순히 인터넷 공간에서만 활발히 활동하던 오타쿠적인 사람들의 방 밖으로의 엑소더스와 그 후 현실에서의 즐김의 문화를 만든 것은 인터넷 민주주의의 대표적인 사례연구로 남을 것이다. 인터넷 인간들의 실생활로의 확장은 역으로 인터넷 공간에서의 삶의 확장까지 이어졌다는 점도 주목해야 한다. 각설하고, 이 글에서는 인터넷의 확장이 민주주의 재도약에 어떤 역할을 하느냐에 대한 것이 아니다. 이 포스팅의 목적인 과연 인터넷 공간/웹생태계는 과연 민주적인가?에 대해서 논하고 싶다. 특히 현재 인터넷의 대표주자인 구글, 그리고 (아직까지는) 구글을 대표하는 웹문서 랭킹 알고리즘인 페이지랭크가 웹생태계에서의 민주주의를 구현했다고들 말한다. 과연 그런가?에 대해서 다시 생각해 볼 것이다. 뿐만 아니라, 대한민국 내의 여러 서비스에 적용된 민주적 추천시스템들 (아고라의 찬/반 투표블로거뉴스의 추천 등)이 과연 민주적으로 구현되었고, 그런 바탕에서 베스트 글들의 선정이 과연 정당한 결과인가 등에 대해서 논하려고 한다.

 구글 페이지랭크와 인터넷 민주주의
An Illustrative PageRank Diagram

페이지랭크의 설명예 (출처: 위키피디어)

 구글의 페이지랭크 PageRank 알고리즘에 대한 기술적, 수학적, 또는 프로그래밍적인 설명을 굳이 이 공간에서 다시 다룰 필요는 없을 것같다. 간단히 개념적으로만 설명하자면, 많은 웹 문서들에 의해서 hyperlinked된 웹 문서는 그 중요도가 상대적으로 적게 링크된 문서들보다 높고, 또 상대적으로 중요한 웹 문서에 의해서 링크된 웹 문서가 그렇지 않은 것들보다 중요도가 높아진다는 것이 페이지랭크의 기본 구조이다. (참고로, 수리적으로 Stochastic Markov 모델과 Random Surfing 모델 등으로, 그리고 기술적으로는 MapReduce 알고리즘으로 알려진 분산처리기술로 대용량의 웹문서들 간의 상대적인 중요도가 구해지고 있다.) 그런데, 초기의 페이지랭크가 민주적이었다고 주장하는 이유는 앞서 설명했듯이 많은 문서들로 부터 링크된 (즉, 다른 문서들로부터 추천된 또는 투표된) 웹 문서의 중요도가 증가한다는 점이다. 즉, 많은 이들의 지지를 받아서 대표로 선출되는 방식이 현대의 대의 민주정치에서 대표을 선출하는 방식과 유사하다는 점이다. 그렇지만, 두번째 속성인 중요한 문서에 의해서 링크된 문서의 중요도가 증가한다는 점은 완벽한 평등을 제공해주지 못한다는 점을 보여준다. 어쩌면 그런 불평등이 현실의 모습 (힘있는 자들의 정치)을 더 잘 구현한 것도 사실이지만, 민주주의의 이상/평등과는 거리가 멀다. (물론, 웹생태계 파괴자들에 의한 정보의 왜곡은 분명 피해야 한다. 그런 점에서 악성 문서들의 투표권을 박탈하는 것은 어느 정도 일리가 있다.) ... 옆의 그림에서 보여지듯이 B와 C 사이의 상호추천도, 경우에 따라서 문제가 될 수가 있다. (악의가 없이) 친구끼리 서로 추천해주는 행위 자체는 큰 문제가 되지 않겠지만, 영향력이 있는 웹 문서들끼리 서로 카르텔을 형성해서 웹생태계에서의 부익부 빈익빈 현상이나 특수 이익집단이 발생할 가능성도 무시할 수 없다. 참고로, 현재의 구글검색에서 PageRank에 대한 의존도가 초기만큼은 크지가 않다. 즉, 구글 검색에서의 웹 문서 랭킹은 더이상 페이지랭크로 한정지을 수 없고, 구글랭크라고 불르는 편이 더 맞다. 그런 의미에서 페이지랭크가 웹생태계의 민주주의 구현이라는 초기의 신화는 어느 정도 재조정될 필요도 있다.

 민주적 방법에 의한 웹 페이지들의 랭킹이라는 초기의 이상은 이제 사라졌지만, 여전히 인터넷 민주주의는 희망이 있다. 더 많은 웹 문서들이 생겨날 수록, 이전에 큰 영향력을 발휘하던 웹 문서들이 서서히 그 위력을 잃어갈 수도 있다. 그러나 인터넷에서 벌어지는 많은 현상들이 Power Law를 따르기 때문에 기존의 영향력있는 웹 문서들에 대한 선호 경향 Preferential Bias을 이용해서 네트워크의 허브로의 발전이 될 가능성이 높다는 점은 단순한 풀뿌리 민주주의를 구현하기에 어렵다는 점을 반증한다. 그래서 웹생태계의 (풀뿌리) 대중 민주화를 위해서는 기존의 (편중된) 영향력을 분산시키거나 대항할 수 있는 새로운 구조가 필요하다. 그런 대항력은 Sum of Power로 수식화되는 입장에서, 몇몇의 대규모 웹 소스들의 영향력을 상쇄시키기 위해서는 아주 많은 소규모 웹 소스들이 조직적으로 통합되어야 한다는 결론에 이르게 된다. 즉, 웹생태계에서의 진정한 민주성의 회복은 자발적 개인들의 참여와 협력에 의해서 이루어질 것이다.

 명시적 추천 시스템
 구글의 페이지랭크 알고리즘이 웹생태계의 암묵적 추천 시스템이라면, 다음 블로거뉴스이나 digg.com의 추천버튼이나 다음 아고라의 찬/반 버튼 등의 명시적 추천 시스템은 과연 민주적인가 비민주적인가도 생각해볼 필요가 있다. 일반 대중들 모두에게 추천버튼이 공개되어있고 추천에 참여할 수 있다는 점에서는 분명 민주적인 방법이다. 그렇지만 모든 대중들이 모든 웹문서들을 공평하게 조회할 수 있는 것이 아니라는 점에서 민주적인 것만 아니라고 할 수가 있다. 후자의 주장에서, 모든 대중이 공개된 모든 문서들을 볼 기회/권한이 없다는 것이 아니다. 그것보다는 어떤 기준들에 의해서 선별된 웹문서들만을 조회하고, 추천을 할 가능성이 높다는 점을 말하고 싶다. 즉, 블로거뉴스나 아고라에서 베스트글로 선정된 문서들은 그렇지 않은 문서들보다 조회 가능성, 그래서 추천 가능성이 상대적으로 높아진다는 점이다. 웹문서의 조회나 추천에서도 부익부빈익빈 현상이 벌어지고 있다는 점을 상기시키려는 것이다. 지난 암울했던 반세기를 거치면서, 우리 사회에 암묵적으로 받아들여진 개념으로 '평등'이라는 것은 사회/공산주의에 더 어울려서, 민주주의에 위배되는 속성으로 간주한다는 점이다. 분명히 해둘 점은 사회주의에서의 평등은 결과의 평등 (비약적으로 말해서, 모든 문서의 조회수와 추천수가 동일해야 한다)에 가깝지만, 민주주의에서의 평등은 기회의 평등 (즉, 모든 문서들이 열람 가능하지만 똑같은 수만큼 조회/추천할 필요는 없다)에 가깝다는 것이다. 각설하고, 그렇지만 현재의 웹생태계의 많은 서비스들이 기회의 평등을 제대로 구현하지는 못하고 있다. 기회의 불평등의 원인은 다양하다. 문서 제목 선택, 글쓰는 솜씨나 레이아웃, 주제의 시의/적정성 등과 같은 게시자의 능력이나 기존의 인맥이나 전문성 등과 같은 게시자의 명성/평판 등에 의한 (문서 열람) 기회의 불균등은 민주주의 사회에서 (경쟁의 개념으로 본다면) 당연한 것일 수도 있다. 그렇지만, 때로는 추천시스템의 구조적 취약성으로 인한 기회의 불균등도 존재한다. 가장 대표적인 경우가, 검색 결과의 상위에 노출된다거나 한 번 이상의 추천을 받은 웹문서의 경우 그렇지 않은 것들에 비해서 일반 대중들의 선택을 받을 가능성이 높아진다. 그래서 인위적인 부정클릭을 통한 추천수를 조작한다거나, 특정 키워드 (때로는 해당 웹문서와 관계가 없는 키워드)를 반복해서 검색엔진의 매칭점수를 높인다거나 거짓 하이퍼링크를 통해서 페이지랭크 값을 변형시키는 그런 시도들이 있었고, 여전히 성행하고 있다. 또 다른 경우는 웹문서의 중요도를 평가하는데 모든 추천자들의 추천이 동일한 영향력을 가지지는 않는다는 점이다. 이는 페이지랭크에서 중요하다고 판단된 문서들에 의해서 링크된 문서들이 더 큰 점수를 부여받는 것과 동일한 의미를 가지며, 또 페이지랭크에서 상호링크와 경우와 같이 일반적인 추천시스템에서도 친구들끼리 상호추천을 하는 등의 노이즈를 막을 방법이 없다는 점도 현재의 명시적 추천 시스템의 한계에 해당한다. (전자의) 일례로, 현재 다음의 블로거뉴스의 오픈에디터/열린편집자로 선정된 이들의 추천이 그렇지 않은 일반 대중들의 추천보다 베스트글을 선별하는데 더 큰 효과를 주는 것은 알려진 비밀이다. 그리고, 때로는 추천 시스템에서의 팬덤현상도 주의해야 하다. 특정 게시자의 명성에만 의존해서 그들의 웹문서의 내용과 상관이 없이 무조건 조회/추천을 하는 현상도 존재하며, 특정 주제에 대해서 웹문서에 선호추천을 하는 경우도 허다하다. 일례로, '미네르바'라는 아고라의 논객의 글에 대해서 팬덤현상을 일으킨 것도 부인할 수가 없다. (** 여전히 검찰/사법부의 이상한 행동은 여전히 이해불가이며, 웹생태계의 자정능력을 무시한 행위에 대해서는 여전히 의문부호를 던질 뿐이다. 미네르바 신드롬은 단지 팬덤현상이라는 측면에서 예로 든 것이다.)

 인터넷의 기본은 정보를 담은 웹문서들과 그것을 저작하고 즐기는 인간들 사이의 유기적인 네트워크이다. 그렇지만 모든 피어 (peer, 웹문서 및 사용자)들이 모두 동일한 권한과 영향력을 가지고 있는 것이 아니다. 그래서 그들의 영향력이나 중요도 등을 판단하기 위해서 전통적인 TF/IDF를 이용한 Okapi BM25라던가 구글의 페이지랭크 (애스크의 엑스펄트랭크나 트러스트랭크 등 포함) 등의 웹문서 랭킹 알고리즘이 개발되기도 하고, 더 명시적으로 사람들의 추천행위를 이용한 웹문서의 중요도를 판단하는 알고리즘/시스템 등이 개발되고 있다. 보통의 경우, 이런 랭킹 알고리즘들이 충분히 민주적으로 웹문서들이나 또는 사용자들의 중요도/영향도를 측정해주지만, 실제 생활에서 민주주의가 왜곡되듯이 웹생태계에서의 이런 민주적 방법에 의한 웹문서 랭킹 방법도 왜곡을 현상을 보이기도 한다. 이런 왜곡현상을 방지 또는 최소화하기 위해서 인터넷 업체들에서 다양한 활동을 펼치고 있긴 하지만, 근본적으로 해소시키기 위해서는 웹생태계를 구성하는 우리 일반 사용자들의 이성적 활동 외에는 뽀죡한 방법이 없다.

 글이 용두사미로 끝나는 감이 있지만, 웹생태계에서의 민주성을 해치는 행위는 나 자신의 자율성 및 민주성도 함께 해치는 행위가 될 것이며, 그 피해는 우리 모두에게 돌아올 것이다. 다음 포스팅은 웹생태계에서의 자원의 재활용 문제나, 지속가능한 추천시스템에 대해서 적을 예정이다. (그러나 그 때는 지금으로썬 알 수 없다.)
* 현 시점에서 본 주제에 대한 시리즈 연재 계획은 없지만, 이 글이 이 주제에 대한 완결편은 아니다. 앞으로 다양한 새로운 내용이 발견/생각되면 (같은 제목으로 또는 특정 주제에 맞는 제목으로) 계속 추가할 예정입니다.

웹생태계 파괴자들
 이전 포스팅에서 웹생태계를 파괴하는 행위 또는 결과물들에 대해서 간단하게 정리하였습니다. 1) 인신공격, 허위/과장사실 유포, 개인정보 유포와 같은 명백한 범법/위법 행위 (또는 결과물); 2) 성인물, 도박유도, 무분별한 욕설이나 비방 등의 우리 사회 내에서 암묵적으로 합의된 미풍양속을 해치는 행위; 3) 원 저작자의 권리인 저작권이나 개인들의 초상권 등과 관련된 개인의 재산권을 해치는 행위; 4) 낚시성 글이나 무의미한 중복된 내용을 공용 공간에 올려서 웹생태계의 리소스를 남용하고 결과적으로 많은 이용자들을 짜증나게 만드는 행위; 그리고 5) 광고성 글들과 같은 비순수 목적을 가진 글들을 무분별하게 배포하는 행위 등을 현재의 웹생태게를 해체는 주요 웹생태계 파괴자들로 정리하였습니다. 그렇다면 이런 파괴자들을 대항해서 원래의 웹생태계의 모습 또는 처음부터 의도되었던 인터넷 및 사이버 세상의 모습을 되찾아가는 노력 또는 지속가능 웹생태계를 가능케하는 동력들에 대해 본 포스팅에서 논의해보려합니다.

웹생태계의 특징 및 인위적 복원의 위험성
 또, 지속가능 웹생태계와 특징을 나열한 글에서 건전한 웹생태계의 특징으로 자발성 spontaneity, 자기정화 self-healing, 종의 다양성 variety 등의 특징을 말한바 있다. (이들 특징에 대한 자세한 기타 설명들은 다시 논의될 것이다.) 이런 특징들이 말해주는 것은 현재 웹생태계를 인위적으로 복원하려는 노력들이 얼마나 무의미하고 웹생태계의 본질을 망각하는 행위들인지를 잘 설명해준다. 특히 정치권을 중심으로 인터넷 게시물들에 대한 '최진실법'으로 명명된 사이버 모독죄의 신설을 통해서 인위적/강제적으로 허위사실을 유포하는 행위자에 대한 처벌을 강화하려는 움직임이나 (이전 포스팅에서 말했듯이 분명히 지켜져야 하겠지만) 저작권법의 강화를 통해서 위법자들에게 민형사상의 큰 손해를 주어서 저작권 및 초상권을 해치는 행위를 근절하려는 움직임 등은 큰 실효성이 없을 것이며, 오히려 건전하고 지속가능한 웹 생태계를 구축/복원하는데 장애물이 될 가능성이 높다. (지속가능 웹생태계 복원의 장애물들에 대해서도 추후에 다시 논의될 예정이다.) 그리고, 국내의 다음 커뮤니케이션이나 네이버와 같은 인터넷 회사들의 자발적인 노력으로 저작권 보호 캐페인에 동참해서 저작물들의 불법유통 및 사용을 줄이고 네티즌들의 의식을 고양시키는 노력은 앞서 언급한 법적 제재를 통한 방법보다는 나은 실효성을 보일 것으로 기대된다. 그렇지만, 이런 업체 중심의 정화 캠페인도 역시 대다수의 네티즌들의 호응을 제대로 불러일으키지 못할 가능성도 있고, 또 다른 제재수단으로 보일 우려가 있다. 그리고 업체의 일방적인 불법 게시물의 블라인드처리나 삭제 등의 행위는 오히려 많은 네티즌들의 반발을 살 가능성이 높다. 앞서 언급했듯이 웹생태계의 시작단계부터 웹생태계는 자생적으로 출현하고 (물론, 초기의 아르파넷에서의 군사연구나 20세기 후반부의 대중화 및 상업화 [특히 닷컴붐 및 버블]의 역사를 가지고 있지만) 자발성을 그 주요 특징으로 하고 있으며, 그리고 생태계의 유기체들이 그러하듯이 웹생태계 역시 자가치료 또는 자기 정화 기능을 발휘한다. 아래에서 계속 언급하겠지만, 이런 자발성과 자기정화 능력이 현재와 미래의 지속가능 웹생태계의 구축의 주요 추진력이 될 것이다. 그리고 웹생태계를 구성하는 다양한 종들이 가지는 의미는 웹생태계를 구성하는 구성요소의 다양성뿐만 아니라, 웹생태계를 정화하는 노력이나 방법의 다양성도 내포한다. 즉, 정부나 업체들의 인위적이고 일률적인 웹생태계 정화 방법 및 시도는 근본적으로 웹생태계의 다양성이라는 주요 특징을 해치는 행위이기 때문에 소기의 목적 달성에 실패할 가능성이 높다.

웹생태계 복원의 핵심 동력들
 그렇다면, 어떠한 동력에 의해서 웹생태계가 건전하고 신뢰를 바탕에 둔 지속가능한 본래의 모습으로 되돌아갈 수 있는지에 대해서 같이 생각해 보자. 본 포스팅에서는 일단 3가지만 생각해보기로 하자. 즉, 자발성, 민주성, 다양성이 본원의 웹생태계가 가진 고유 속성이며 이런 속성들이 제대로 발현되면 (또는 이런 속성들을 가진 주체들에 의해서) 지속가능한 웹생태계가 구축될 수 있다. 물론, 제시된 3가지 속성만으로 지속가능 웹생태계를 완벽하게 복원시킬 수 있다고 주장하는 바도 아니고, 또 완벽한 배타성을 가진다고 주장하는 바도 아니다. 뿐만 아니라, 관점에 따라서 이들 속성들 사이에 서로 중첩되기도 하고 특정 소성이 다른 속성의 하위의 개념으로 받아들여질 수도 있다.

자발성 spontaneity
 가장 먼저 제시된 개념은 자발성이다. 자발성이란 누군가의 강요에 의해서 이루어지는 것이 아니라, 개인의 순수한 의도에 따라서 개인이 가진 작은 힘을 전체 생태계의 발전과 진화에 기여하는 것이다. 인터넷의 개발 초기 (물론, 군사적 목적에 의해서 시발은 되었지만)부터의 인터넷 역사를 보면 순수한 연구자들의 자발적인 참여에 의해서 통신 및 브라우징 기술들이 발명/발전되었고, 또 웹생태계의 주요 구성물인 컨텐츠 또한 전세계의 일반 네티즌들에 의해서 저작, 수정, 배포되어졌다는 것을 쉽게 알 수가 있다. IT 관련 기술의 개발하고 컨텐츠들을 저작하고 평가하는 이들이 프로페셔널이냐 아마추어이냐에 대한 구분은 과거 산업화 시대의 그런 구분과 다름을 알 수가 있다. 물론, 게중에는 남들보다 조금 더 유능하거나 조금 더 전문성을 가졌거나, 또는 좀 더 많은 저작활동을 펼치는 개인들도 분명 존재하고, 반대의 개인들도 존재한다. 그렇지만 특정 분야에서 두각을 내는 개인이라해도 인터넷이라는 다양성의 세계에서 다른 분야에서도 똑같이 두각을 내는 경우가 많지가 않으며, 한 분야에 서툰 개인이 다른 분야에서는 평균 이상의 퍼포먼스를 내는 경우도 많이 목격했다. 여기서 말하는 것은 이런 개인들의 순수성과 자발성이 인터넷이라는 새로운 기술과 문화를 창출해낸 주체이며, 또 발전시키는 주체라는 점이다. 그리고 또 자발성과는 조금의 관점의 차이가 있겠으나 '자기 self-' 속성에 대해서도 언급할 필요가 있을 것같다. 가장 많은 예로 든 것이 자기정화(자정, self-healing)이라는 개념이다. 즉, 때로운 웹생태계에 혼탁한 물이 흘러들어오지만 웹생태계를 지킬려는 많은 자발적 참여자들에의해서 잠시동안의 오염이 다시 제거가 되는 모습을 우리는 많이 목격을 했다. 때로는 경찰이나 법 등의 공권력이 투입되는 경우도 있었으나, 그런 특수한 몇 건의 경우로 사이버 스페이스 전체의 자정능력을 폄하해서는 절대로 안 된다. 단기적으로 웹생태계 파괴행위들에 대해서는 정부나 업체들의 강제 제재가 필요하겠지만, 단기적인 부작용들에 단면적인 설레발을 칠 것이 아니라, 장기적으로 웹생태계의 자기정화 능력을 신뢰하고 지속가능 웹생태계 구축이라는 원래의 모적으로 인도하는 수준에서의 제재로 충분하다. (일부의 돌출행동으로 인해서 사이버 스페이스에서 피해를 입었다면 그들의 자유오남용을 제재하고, 피해자들에게 보상을 주는 절차나 규칙이 필요함은 필자도 적극 동의하는 바이다.) 이런 자기정화 뿐만 아니라, 자기조직화 등에서도 자발성의 개념을 여전히 유효하다.

민주성 democracy
 두번째로 생각할 속성은 민주성이다. 민주성이란 웹생태계를 구성하는 모든 이들에게 저작이나 소비 등에서 접근의 평등성이 보장된다거나 웹생태계의 발전의 각 부분에서 순수한 기여를 보장해주는 등의 개념이다. 순수한 사이버 스페이스는 통치자와 피통치자의 관계가 아니라, 개인의 일대일 수평 관계 (peer-to-peer)의 관계를 전제로 하는 것이다. 그렇지만 시간이 흐를수록 개인들 간의 집단 및 조직이 형성되는 등의 수직 관계가 형성되는 것도 목격하고 있다. 그렇게 해서 어떤 이들은 더 큰 권력을 행사해서 다른 이들을 복속시키려는 그런 비정상적인 관행도 생겨났음을 부인할 수가 없다. (물론 여기서 말하는 수직관계란 관리자와 사용자의 관계를 말하려는 것은 아니다. 예를 들어, 최근에 나타나는 폐단 중에 하나로 소위 파워 블로거들이 초보 블로거들의 서툰 행위에 대해서 지나치게 간섭하고 지적하는 행위에 대해서 불편해하는 분들도 있는 것같다 (다음의 글 참조, 혹시 이 블로그의 내용이 이런 웹생태계 서열화를 조장한다면 그럴 의도는 전혀 없었지만 머리숙여 사과드립니다). 물론 이런 행위들이 순수한 의도에서 앞서 말한 자발성, 즉 자기정화의 긍정적인 요소이지만, 다른 측면에서는 사이버 스페이스 내에서의 서열화를 부축일 수도 있다. (물론, 대부분의 경우 지나친 불펌이나 광고행위 등의 부도덕적인 행위에 대해서 지적하는 경우가 많지만...) 때론 순수성이 오인되면 웹생태계의 민주성이 파괴될 수도있다. 그리고, 민주성에 대해서 다루고 싶은 얘기는 실제 아고라블로거뉴스의 추천시스템이나 글을 발행하는 행위는 모든 네티즌들에게 평등하게 제공되고 있지만, 특정 전문 지식을 가진 집단이나 글재주가 많은 이들에 의해서 여론이 형성/주도되는 경우도 흔히 볼 수가 있다. 웹생태계의 민주성을 파괴하기 위해서 이런 현상이 발생하는 것은 아니지만, 많은 일반 네티즌들이 특정집단의 웹권력화에 우려를 표하는 것 또한 간과할 수 없는 사실이다. 그래서 많은 이들이 블로거뉴스의 추천시스템이나 오픈에디팅 제도의 공정성이나 신뢰성에 의문을 제기하기도 한다. 제대로 된 민주성에 기반을 둔 그런 추천 시스템을 또한 기대한다. 웹민주성에는 개인 간의 민주성뿐만 아니라, 조직들 간의 민주성도 함께 고려되어져야 한다.

다양성 variety
 마지막으로, 다양성이란 문자 그대로 웹생태계는 다양한 요소들로 구성되어 있으며, 시시각각 그 모습을 변화시킨다는 것이다. 건전한 웹생태계를 획일화와 거리가 멀다. 우리가 살고 있는 자연 생태계에서도 유전학적으로 종이 획일화되면 다양한 유전병이 발생할 가능성이 커지고, 결국에는 생태계에서 멸종하는 것을 볼 수가 있다. 그런 측면에서 웹생태계가 지속가능하려면 늘 새로운 아이디어, 색다른 서비스, 진보된 기술 등의 항상 새로움이 부어져야 한다. 그런 새로움은 기존의 시스템과 차별성을 주면서 또 일관되게 통합되어져야 한다. 기존의 시스템과 통합/조정되지 않은 망나니같은 새로움은 웹생태계의 다양성을 증가시키는 것이 아니라 역으로 그런 다양성을 파괴시키는 결과를 초래할 가능성이 높다. 지난 10여년 간의 인터넷 환경에서는 늘 새로운 서비스가 등장했고 또 그것보다 나은 서비스가 새롭게 등장하고 때론 구태연한 서비스들이 종말을 맞이하는 등의 웹생태계는 그 모습을 항상 변화시켰다. 그리고 최근에는 특수의 집단에서 그들만의 이상이나 이념을 강요하는 여론왜곡현상도 사이버 스페이스에서 만연해있다. 뛰어난 논리로 사람들을 현혹시켜서 특수 목적에 맞는 생각이나 행동을 강요하는 그런 파괴행위들도 다양성이라는 측면에서 고려되어져야 한다. 다양성을 때론 특수성으로 볼 수도 있다. 특수한 경우에 가장 적합한 것은 기존의 일반적인 것이 아닐 간능성이 높다. 그렇기 때문에 특수성/독특성을 다양성이라는 관점에서 수용할 수 있는 아량도 필요한 듯하다. 물론, 통일성, 일관성, 일반성 등의 개념을 반대하는 입장에서 다양성을 설명하려는 것은 아니다.

 요약하면, 지속가능 웹생태계를 복원하기 위해서는 다양한 개인들이 자발적으로 웹생태계에 참여해서 그들의 다양한 의견을 개진하고 웹생태계게 기여하는 것의 기회를 균등이 주어져야 한다. 이런 자발적 참여, 민주적 기회 보장, 다양한 개인과 의견의 조화를 통해서 웹생태계는 지속가능한 모습을 이룰 것이다. 

"S = SDV+"

 음, 그로고 보니 '순수성'도 자세히 다룰 필요가 있을 것같다.

 이제껏 논의했던 내용은 여전히 많이 부실하다. 앞으로 더 많은 자료들을 모으고 여러 사람들의 생각들이 모인다면 조금 더 발전된 생각의 틀이 만들어질 수 있을 것같다. 혹시 잘못된 표현이나 사실, 또는 추가되어져야할 생각이나 내용 등이 있으면 코멘트를 남겨주시기 바랍니다. 다음에는 '인터넷과 민주주의'에 대해서 더 깊게 다룰 예정이다. 그렇다고 이 주제가 바로 이어서 제공될지는 아직은 미지수다.
*** 현재로썬 이 주제에 대해서 시리즈 글을 쓸 계획이 없지만, 본 포스팅에서 관련된 모든 요소/정보를 다룰 수 없기 때문에 추후에 기회가 되면 추가 글을 적을 여지를 남겨두기 위해서 일단 (1)으로 마킹을 해두었습니다.

 지속가능 웹생태계의 구축 및 복원 (Recovery of the Sustainable Web EcoSystem, SubEco)을 다루기 위해서는, 먼저 현재 어떤 요소들에 의해서 웹생태계가 파괴되고 있는지를 다룰 필요가 있다. 파괴자를 바라보는 다양한 측면이 있을 수 있으나, 본 포스팅에서는 글의 속성에 따른 구분에 초점을 맞출 것이다. 그리고, 아래의 구분/카테고리들은 서로 겹치는 부분도 있을 것이고, (웹생태계 파괴 행위) 전체를 완전히 커버할 수도 없을 것이다. 그런 측면에서 본 포스팅에서 빠진 카테고리는 추후에 다시 다룰 기회가 있을 것이다. 그리고 다른 관점에서의 웹생태계 파괴자들을 다룰 기회도 있으리라 본다.

1. Against the Laws
 가장 우선 순위의 웹생태계 파괴자로는 위법적인 글들을 들 수가 있다. 대표적인 사례로는 허위사실/정보를 포함하는 글/행위 (물론, 최근에 '미네르바 구속'사건으로 무엇이 허위사실이며 어느정도까지 허용되어야 하느냐에 대한 논의가 공론화된 점은 불행중 다행이라 생각한다.), 인신공격이나 인격모독의 내용을 담고 있는 글/행위, 그리고 개인정보를 악의적으로 담고 있는 글/행위 등이 대표적인 위법사례로 들 수 있을 것같다. (저작권 등과 관련된 사항은 별도의 카테고리를 마련하였다.)

2. Against the Public Morals/Customs
 우리 사회의 미풍양속을 해치는 정보도 대표적인 웹생태계를 파괴자이다. 대표적인 미풍양속을 해치는 정보로는 낯뜨거운 성인성 글과 도박성 글을 들 수가 있다. 그리고, 댓글문화가 발전하면서 발생한 폐단인 욕설이나 무차별 비난 등도 우리 사회의 미풍양속을 해치는 글들로 볼 수가 있다. 

3. Annoyance
 세번째로 생각할 수 있는 파괴자로는 사용자들을 괴롭히는 글들일 것이다. 대표적인 사례로 낚시성 글들을 이 범주에 포함시킬 수 있다. 특히 낚시성 글은 도박이나 상업성 글들과 함께 동작하는 경향이 강하며, 성인성 글들이 많이 이용되고 있다. 낚시글뿐만 아니라, 의미없는 내용이 대량 & 중복으로 포스팅되는 것, 웹문서 내에 악성코드를 심어두는 것, 그리고 낚시글 이후에 외부의 불건전한 웹페이지로 링크를 걸어두는 것 등도 사용자들의 불편하고 괴롭히는 글들이다.

4. Left to Copy
 앞서 불법/위법적인 글들을 이미 언급했지만, 네번째로 생각할 파괴행위는 여러 저작물들의 저작권이나 초상권과 관련된 문제를 들 수가 있다. 현재 대형포털들을 중심으로 '스크랩'이나 '펌' 등으로 알려진 저작권 침해 행위는 개인 블로그나 미니홈피의 증가로 더욱 만연해있다. 게중에는 지인들끼리 사진을 공유하는 등의 소셜네트워킹이라던가 좋은 저작물들을 널리 알려주는 등의 순기능도 있지만, 원저작권자의 허락이 없는 불법적인 저작물의 유통은 분명 건전한 웹생태계를 파괴하는 행위이다. 그리고, 이런 반복된 행위로 인해서 똑같은 내용의 문서들이 중복으로 존재하는 것 역시, 아무리 좋은 저작물이라 하더라도, 웹생태계에서 쓰레기로 남을 가능성이 있다. 뿐만 아니라, 현재 스크랩을 통해서 유통 전파되고 있는 많은 부분이 야설, 야사, 야동 등으로 불리는 성인물들이라는 점도 문제가 된다. 웹생태계에서 불법적으로 유통되는 정보들은 개인 UCC 자료들 뿐만 아니라, 법적으로 충분히 보호받아야할 뉴스기사, 음악, 영화나 드라마, 사진이나 소설 등 그 종류를 불문하고 있다. 그리고, 디지털 카메라, 디지털 캠코더의 보급과 개인 퍼블리슁이 합쳐져서 불특정 일반 대중들의 사진이나 생활상이 웹생태계에 여과없이 노출되는 점에서 초상권이나 사생활권를 침해할 가능성도 높다. 덧붙여, 개인의 불법적인 저작물 유통에도 문제가 있지만, 저작권자들의 무분별하고 지나친 저작권료를 요구하는 것도 건전한 웹생태계를 파괴할 수도 있다. 특히 많은 불법 유통의 장본인들이 경제권이 거의 없는 청소년들이라는 점에서 적정 수준에서 저작권의 사용을 허하는 문화도 빨리 정착되어야 한다.

 앞서도 잠시 언급했지만 스크랩 행위 자체를 폄하하는 것은 아니고, 그 순기능도 존재함은 분명하다. 그리고, IT 기술이 발전하고 대중화됨에 따라서 GNU나 CopyLeft와 같은 오픈소싱 Open Sourcing 운동도 활발하게 진행되고 있다는 점도 눈여겨 볼 필요가 있다. 이런 오픈소싱 등은 현재의 왜곡된 웹생태계를 복원하는데 한축을 담당할 것이다.

5. Impurity
 다섯번째로 생각할 파괴자는 상업성 광고를 뽑고 싶다. 개인이나 비영리 단체가 아닌, 영리단체에서는 인터넷이라는 매체를 통해서 자신과 그들의 상품을 광고하는 것은 당연하다. 그렇지만, 이런 상업성이 (시발단계에서) 순수한 것으로 가정되었던 개인 블로그에도 넘쳐나고 (물론 그런 블로그들은 처음부터 이런 목적으로 만들어졌지만), 특정 집단의 친목을 도모하는 카페 등의 커뮤니티에도 넘쳐난다는 것은 문제가 있다. 더우기 이런 상업적인 광고는 앞서 언급했던 과대/허위광고 (허위사실 유포와는 조금 다르겠지만), 저작권 및 초상권 침해, 성인물의 유통, 대량 낚시성 저작물의 생성 등의 웹생태계 파괴자의 종합판으로 역할하는 경우가 많다.

6. Misc.
 그 외에도 미풍양속을 해치는 행위에 포함되었던 댓글 등을 통한 욕설이나 무분별한 비난 등도 건전한 웹생태계를 파괴하는 행위이다. 그리고 또... 생각나는 점을 앞으로 다른 포스팅을 통해서 전달하겠습니다.

 다행인 점은 위와 같은 웹생태계 파괴자들은 국내외의 많은 인터넷 회사들이 정화하려고 많은 노력을 기울이고 있다는 점이다. 그러나 불행한 점은 (언제나 그렇듯이) 인터넷 업체에서 이런 글들을 찾아내서 제재하는 속도보다 이런 파괴자들이 생성되고 유통되는 속도가 더 빠르다는 점이다.

 사족으로, 가끔 '내 블로그의 글들이 검색에 노출되지 않아요'라는 포스팅들을 볼 때가 있다. 위의 웹생태계 파괴행위를 역으로 살펴보시면 왜 내 글이 검색에 제대로 노출되지 않았는지 추론이 가능하다.
 "지속가능 웹 생태계"가 무엇이며 어떤 특징들을 가져야 하는지에 대해서 생각해보자. 그러기 위해서 각각의 단어가 가지는 뜻부터 자세히 정의할 필요가 있을 것같다. 여기에서는 유명한 (백과)사전의 정의 이상을 말하지는 않을 것이다.

생태계 EcoSystem
 생태계 EcoSystem란 WikiPedia의 표현을 빌리면 "모든 무생물적 요소들이 존재하는 물리적 환경에서의 동식물과 미생물을 포함한 모든 생물들로 구성된 자연의 단위 an ecosystem is a natural unit consisting of all plants, animals and micro-organisms (biotic factors) in an area functioning together with all of the non-living physical (abiotic) factors of the environment"정도로 정의할 수 있다. 이렇듯 생태계란 공간적 영역을 구성하는 물리적 환경과 그 공간 내에서 특정 규칙에 의해서 기능을 하는 생물들의 유기적 체계이다. 생태계란 단순히 자연적으로 구성된 환경과 생물만을 뜻하지는 않는다. 사람들에 의해서 인위적으로 조작된 공간이나 그 속에 재배치된 가공의 구성물들로 이루어진 체계도 생태계라는 큰 틀에서 설명이 가능하다.

 일반적으로 WWW (World Wide Web)으로 알려진 웹 web은 인터넷이라는 새로운 매체를 통해서 하이퍼텍스트들이 거미줄과 같이 상호연결된 네트워크정도로 정의할 수가 있을 것같다. 초기의 군사 & 연구 목적으로 개발될 당시와, 적어고 90년대의 대중화를 시작하던 때의 웹과 현재의 웹을 같은 수준에서 정의를 내릴 수는 없겠지만, 그 형태적 topology는 크게 변한 것같지가 않다. 그러나 초기의 단순히 문서들 간의 관계 정도의 역할에서, 이제는 사람과 사람을 묶어주는 기능으로 더 발전하는 듯하다. (이미 잘 알려진 웹에 대해서 굳이 다시 설명할 필요는 없는 듯하다.) 요는, 웹은 더 이상 기계의 기계에 의한 기계를 위한 신공간이 아니라, 인간의 인간에 의한 인간을 위한 공간으로 재창조되고 있다는 점이다. 그런 점에서 단순히 문서/정보를 저장하고 구글링을 통해서 그런 정보를 찾는 공간으로의 협의적/기술적 웹에서 벗어나, 지금은 그리고 앞으로는 인간성을 지닌 공간으로의 웹이 기능할 것으로 예상된다.

 그러면 지속가능성이란 무엇인가? 웹이나 생태계라는 용어보다는 일반인들에게 잘 알려져있지 않은 용어이지만, 지속가능 경영이라거나 지속가능 제품/개발 등과 같은 용어로 늘리 사용되고 있다. 역시 위키피디아의 정의를 따라보자. 지속가능성은 "넓은 의미로 어떤 프로세스나 상태를 유지할 수 있는 능력/용량으로 정의지만, 보통 생물학 또는 인간 시스템과 연계되어서 자주 정의/사용된다. 생태학적 콘텍스트에서 지속가능성은 생태계가 그것의 생태학적 프로세스, 기능, 생물적 다양성, 그리고 생산성을 미래세대까지 지속할 수 있는 능력"으로 정의될 수가 있다. 초기에는 이런 생물학적 또는 환경적인 측면에서 지속가능성이라는 용어가 사용되기 시작했지만, 오늘날에는 앞서 언급한 것과 같이 지속가능한 경제나 지속가능한 경영 등과 같이 오늘날의 자연환경을 보전하는데 도움이 되는 친환경 경제/경영 등을 표현하는데 늘리 이용되고 있다. 즉, 지속가능하다는 것은 환경의 현재의 모습이 제대로 보존이 되고 때론 이미 파괴된 환경이나 생태계를 원래의 모습을 복원하는 그런 과정을 설명한다고 볼 수가 있다. 화학비료나 농약 등을 사용하지 않는 유기농 농법이나 면, 목화 등의 천연재료를 이용한 옷감/제품의 생산 등의 작은 부분에서부터 지구 온난화 방지를 위한 이산화탄소 배출량 규제나 하이브리드/전기/태양열 자동차의 개발 등과 같은 규모가 큰 산업에 이르기까지 지속가능성이라는 개념이 늘리 사용되고 있다. 

지속가능 웹 생태계 (Sustainable Web EcoSystem, SubEco)
 사람에 의해 창조된 인위적인 공간과 그 구성물들의 활동도 역시 생태계라는 틀 내에서 정의가 가능하다는 의미에서, 인터넷으로 알려진 사이버 스페이스와 이를 구성하는 다양한 서비스나 데이터, 그리고 이를 이용하는 인간활동 모두를 생태계라는 큰 틀 내에서 설명이 가능하며, 이를 웹 생태계 Web EcoSystem이라 정의할 수가 있을 것이다. 생태계 내에서 구성물들이 상호작용하고 진화해나가고 또 죽음을 맞이하는 이런 일련의 행위나 현상들이 웹 생태계 내에서 관측가능할 것이다. 뿐만 아니라, 현재의 지구온난화로 대표되는 환경 파괴, 즉 생태계 파괴 현상 역시 웹 생태계 파괴 현상으로 현실화되고 있으며 그 파괴력이나 파급효과는 현재 고삐 풀린 망아지가 되어가고 있는 것같다. 지속가능성이라는 측면에서 이런 파괴적인 사이버 행위들을 제거하고 양질의 컨텐츠와 활동 규칙/규범을 만들어가는 작업이, 우리의 일상 생활에서 신재생 에너지의 개발 등과 같이, 매우 중요하고 긴급한 주제이다.

지속가능 웹 생태계의 건전한 특징들
 지속가능한 웹 생태계의 주요 특징들로는... 특히 웹 2.0이라는 용어가 등장하면서 함께 만들어진 많은 용어들이 이런 웹의 본연의 모습을 잘 설명해주고 있는 듯하다. 즉, 자발적 참여의 자발성 spontaneity, 인터넷 상의 여러 불건전 정보나 매체를 정화시키는 자정기능 self-healing, 여러 곳에 산재한 정보들을 하나의 통합된 지식으로 만들어내는 자기조직화 self-organizing, 그리고 다양한 종류의 지식이나 매체의 종의 다양성 variety 등과 같은 특징들이 지속가능한 웹 생태계를 구성하는 좋은 요서 또는 특징이 될 것이다. 

 앞으로의 지속적인 포스팅을 통해서, 지속가능 웹 생태계를 더욱 정교하고 구체적으로 정의내릴 뿐만 아니라, 간단하게 언급한 이런 특징들을 구체화하고 더욱 많은 특징이나 방향을 발굴할 예정이다. 처음 포스팅에서도 밝혔듯이 이런 작업의 매우 어렵고 많은 시간을 요하기 때문에 많은 분들의 협조가 필요합니다. 여러분들의 지속적인 관심과 도움을 청합니다.
 오늘날 '지속가능성 sustainability'라는 말을 자주 그리고 여러 곳에서 듣게 된다. 좁은 의미에서 본다면 자연과 공존하는 친환경 제품/공법 개발 정도 요약될 것이다. 그렇지만 단순히 친환경 제품의 개발이나 친환경 공법의 개발만이 오늘 그리고 내일 논의될 sustainability를 제대로 설명해주지는 못할 것이다. 이제껏 지속가능성의 생각의 틀이 자연생태계였다면, 지금 이 시점에서 또 다른 영역인 웹생태계 (Web EcoSystem)로 확장할 때가 아닌가 생각한다. 특히, 최근 대한민국 내에서 이슈가 되고 있는 (논의가 되고 있는 이라는 표현을 쓰기는 어려울 듯) 사이버 스페이스의 여러 가지 현상들에 대한 우려와 이를 바라보는 이상한 움직임들을 생각한다면 지금 이 시점에서 더 넓은 context 내에서 이런 이슈들을 다시 점검하고 더 건전한 공공재로써의 웹생태계의 구축과 유지를 위해서 현대를 살아가는 우리들의 역할과 의무에 대해서 주의깊은 논의가 필요하다. 이 블로그의 개설취지 (및 앞으로 기회가 된다면 SubEco라는 재단을 만들지도...)는 단순히 '사이버 모독죄'의 도입의 찬/반을 논한다거나 포털/검색/게임 등의 인터넷 관련 업체들의 역할 등에 대해서 논하기 위한 것은 절대 아니다. (현재보다) 더 깨끗한 자연환경을 조성하여 미래 세대에게 물려주어야하는 것이 우리의 임무이듯이, 더 투명하고 신뢰할 수 있는 웹 생태계를 구축하는 것 또한 우리의 의무인 듯하다.

 그동안 (필자는) XML과 온탈러지 등을 시맨틱웹 개발, 자발적 참여형 웹인 웹X.0 연구, 웹서비스의 발견과 통합에 관한 연구, 웹 상의 무수한 데이터를 가공하고 분석하는 데이터 마이닝이나 collaborative filtering 등의 다양한 분석도구의 개발 등의 기술적인 부분에서 많은 연구/개발을 담당했지만... 이러한 연구의 성과들이 신뢰라는 바탕 위에서 사용되어져야한다는 그런 사명감을 가져본 적은 없었던 것같다. 단순히 프로젝트 한건을 따내거나 논문 한편을 발표하는데 현안이 되어서 기술을 넘어선 인간성에 대한 인식이 부족했던 것이 사실이었다. 하지만 이 공간을 통해서 웹에 종속된 인간사회가 아닌, 진정한 인간을 위한 웹 생태계 복원에 최선을 노력을 기울이려 한다. 또 하나의 이념이 되어버릴 '그린' 웹이 아닌 그냥 투명한 transparent 웹을 꿈꾼다. 그런 곳에서 내가 접속하고 우리의 후손들이 지식을 얻기를 희망한다.

 ** 중요한 코멘트 하나: 몇 일 전에 기사화된 뉴스로 구글에서 1회 검색시마다 7g의 이산화탄소가 발생한다는 연구결과가 있었다. 본 블로그에서 그런 실제 환경문제보다는 사이버 스페이스 내에서의 환경에 초점을 맞출 예정입니다.

 앞으로 이 블로그를 통해서 지속가능한 웹 생태계에 대한 개인적인 생각들을 정리해서 발행하고, 또 다른 곳에 산재한 여러 자료들을 모아서 공유할 예정이다. 그런데 이런 지속가능한 웹 생태계를 정의하고 만들어 나가는 작업으로 결코 이루어질 수 없다는 것을 잘 알고 있습니다. 여러분들의 깊은 관심과 도움이 절실히 필요합니다. 이 작은 프로젝트를 동참해주세요. 단순히 좋은 아이디어나 자료들을 알려주셔도 좋고, 블로그를 공동으로 집필하는 것도 좋고... 방법은 상관이 없습니다. (생각은 많은데 막상 글을 적을려면 항상 어려움이 따릅니다. 이 글도 좀 더 정제되고 정리된 상태로 글을 적어야 하는데, 지금 마음만 급해지고 있습니다.)

If you want to join us, let me know via reply, e-mail to 'bjeong@gmail.com', or any other medium.