네이버의 선거 개입이 문제인 이유(Naver as fake maker)
링크를 따라가면 뜨는 모바일 화면 캡처
네이버(Naver)는 뉴스 코너에 '제7회 전국동시지방선거' 특집 페이지를 마련하여 운영하고 있다. 그런데 그 중에 '기사 키워드'라는 코너에 "지방선거 기사 기반으로 빅데이터 분석 기법을 통해 키워드를 추출합니다."라는 안내문을 붙이고, 여러 키워드와 관련 기사를 모아 놓은 링크를 제공하고 있다. (캡처 화면 참조)
2018년 6월 8일 오전 10시 경 모바일 캡처
내가 페이지 새로고침으로 확인해 본 결과, 짙게 표시된 키워드와 관련 기사 링크는 고칠 때마다 무작위로(?) 바뀌게 짜여 있다. 많은 일반인은 '빅데이터 분석'이라는 말이 무슨 뜻인지 잘 모르고 있기에, 이 점을 설명하고, 이런 수법이 지능적인 선거 개입임을 고발하고자 한다.
아는 분은 알겠지만 나는 인공지능에 대한 책을 쓴 베스트셀러 작가이고 인공지능과 관련된 많은 글과 강연으로 나날이 바쁘다. (참조: 인세와 스팀잇 : 제 책 『인공지능의 시대, 인간을 다시 묻다』가 4쇄를 찍었습니다 ; 활동 이력은 내 블로그 에서 확인 가능.) 이른바 전문가의 눈으로 볼 때 네이버가 행하는 '빅데이터 분석' 코너는 선거 기간에 결코 해서는 안 되는 선거 개입이라는 점을 분명히 해 두고 싶다.
네이버는 언론사도 아니면서 언론의 기능을 수행하고 있다. 그러면서도 권한에 상응하는 책임은 전적으로 방기하고 있다. 네이버는 '댓글 조작 사건'이 불거진 후, 뉴스 편집을 중단하고 인공지능에게 편집을 맡기는 "네이버 인공지능 추천 기술 에어스(AiRS)"로 대체하겠다는 헛소리 대안을 내놓았다. 바로 이 에어스의 적용 사례가 이번 '기사 키워드'의 '빅데이터 분석' 기법이기 때문에 이번 사안은 더 막중하다.
그럼 어떤 점이 문제일까? 빅데이터 분석은 첨단 인공지능 기술을 적용했기 때문에 더 공정하지 않을까? 아마 많은 독자는 인공지능의 공정성에 기대하는 점이 많을 것이다. 하지만 네이버의 이런 행위는 전적으로 사기이다. 그 이유를 간략히 설명하겠다. 요점부터 말하면, 빅데이터 분석은 인공지능을 활용한 데이터 가공 및 조작에 불과하다.
빅데이터 분석이란 아주 많은 수의 데이터에서, 중요 키워드를 뽑아내는 (네이버가 만든) 일정한 알고리즘을 통해 결과를 도출해내는 기법이다. 우선 이 알고리즘이 공개되지 않는다면 분석 결과에 의문이 가시지 않을 것이다. 가령 A신문, B일보, C경제, D... 등 여러 언론사에 가중치를 부여했다면, 그 기준이 공개되어야 할 것이다. 그렇지 않으면 특정 성향의 언론사가 더 높은 가중치 때문에 더 자주 노출되는 결과를 가져올 것이다.
가중치를 부여하지 않았더라도 문제는 여전히 남는다. 특정 언론사가 형식을 조금씩 바꿔서 특정 주제를 더 많이 기사화할 경우 중복 집계될 수 있다. 가령 스트레이트 기사(=취재한 사실 보도), 반박 기사, 후속 보도, 칼럼, 시민 반응 등 여려 형식의 기사를 작성할 여지는 충분하며, 이 기사들이 모두 지면에 실리지 않더라도, 빅데이터 분석에 활용된다. 또한 군소 인터넷 매체들이 쏟아내는 기사들 또한 빅데이터 분석에 활용될 수밖에 없다. 가중치가 부여되지 않더라도 문제이고 부여되도 문제이다.
요컨대 네이버의 '기사 키워드' 서비스는 누군가가 악용하려 들면 얼마든지 악용할 수 있는 '백도어' 같은 (뒷문을 열어주는) 통로인 것이다. 어떻게 그럴 수 있을까? 특정 후보, 정당, 언론사가 어떤 목적을 갖고 특정 주제를 반복해서 기사화하면 네이버의 알고리즘을 통해 깔끔하게 중요한 '키워드'로 추출된다. 관련 기사들은 링크로 제공되고, 논란은 더 커질 수 있다. 사실을 밝히는 것이 중요하다고 주장할 수도 있겠지만, 선거 기간에는 특히 온갖 '가짜 뉴스'가 만들어지기 마련이고, 이는 한국뿐 아니라 어느 나라에서건 마찬가지이다.
그 과정을 도식으로 표현하면 이렇다: '가짜 뉴스들 생산' → '알고리즘' → '키워드 추출' → '논란 확대 재생산'. 네이버는 지금 이렇게 위험한 일이 행해질 수 있는 '서비스'를 제공하고 있는 것이다. 그것도 선거 기간에! 인공지능의 빅데이터 분석, 또는 정확히 표현하면 지도학습 알고리즘에서 가장 중요한 것은 데이터의 품질이다. 좋은 데이터를 처리하면 좋은 결과가 나오고, 나쁜 데이터를 처리하면 나쁜 결과가 나온다. 편향된(biased) 데이터로부터는 편향된 키워드가 나오고, 가짜(fake) 데이터로부터는 가짜 키워드가 나온다.
현행법으로 선거일 기준 7일 전부터 여론조사 공표가 금지되어 있다. 나 개인적으로는 그럴 필요 없이, 미국처럼 개인도 언론사도 특정 정당이나 후보를 지지할 수 있고, 여론조사도 선거일 전날까지 공개할 수 있어야 한다고 생각하지만, 현행법의 취지는 충분히 존중한다. 즉, 여론조작을 막겠다는 것이다. 보통 여론조사는 조사자가 원하는 형태로 결과가 도출되게끔 이루어진다는 점은 잘 알려져 있다. 따라서 특정한 의도를 갖고 행해진 여론조사에 유권자가 좌우되지 않도록 하는 장치가 필요하다. 현행법은 그런 취지에서 만들어졌다.
네이버의 '기사 키워드' 코너는 교묘하게 위장된 '여론조사' 공표 행위라고 볼 수 있다. 게다가 네이버는 실질적으로 뉴스 영향력을 행사하는 초거대 포털이다. 더욱 신중할 필요가 있다는 뜻이다. 네이버 측에서는 선한 의도로 만든 서비스라고 주장할 것이다. 네이버 자신은 단지 작성된 기사들을 분석했을 뿐이라는 것이다. 이건 책임을 교묘하게 회피하는 것에 지나지 않는다.
네이버는 '기사 키워드' 서비스를 즉각 중단해야 한다. 또한 앞으로 일반인의 무지를 빌미로 유사한 서비스를 제공해서는 안 된다. 네이버는 선거 개입을 즉각 중단해야 한다. 네이버의 행위는 심각한 헌정 유린이며, 민주주의의 꽃이라고 하는 선거를 왜곡하는 부정행위이다.
나는 선거관리위원회에 이상의 내용을 고발했고, 이상의 내용을 네이버 측에 전달하겠다는 답을 얻었다. 또 여러 언론사에 제보했고, 이상의 내용을 주시하라고 제언했다. 선관위 측에서는 후보나 정당에서 문제를 제기하면 더 큰 조치가 가능하다고 한다. 혹시라도 무능하기 이를 데 없는 후보나 정당에서 이 글을 보게 된다면, 더 강력한 조치를 취해야 할 것이다. 나는 특정 정당이나 후보의 편을 들기 위해 이 글을 쓴 것이 아니라, 대한민국의 민주주의와 미래를 위해 이 글을 썼다.
아직 선거가 5일이나 남았다.
네이버가 상당히 자주 거론되네요 요즘.. 이러다 한방에..
이와 비슷한 문제는 미국 대통령 선거에서도 발생했죠. 중앙화 시스템의 문제점중 하나라 생각됩니다 ㅠ
개입어라 개입했나...
네이버 적폐 청산이 안되네요
좋은 글 감사합니다
대형 포털에서 올라가는 글들은 사람들에게 상당한 영향을 미칠텐데... 바로잡아야할 일입니다
저 또한 주로 네이버를 이용하는 사람인데 조심해야겠군요
많은 사람들이 볼 수 있게 리스팀하고 갑니다
말씀대로 인공지능을 활용한 AiRS 기술에 대한 정확한 알고리즘 없이는 공정하다고 볼 수 없네요. 포털이 여론에서 중요성이 커지면서 책임을 느끼고 공정한 방법으로 바꿔야 한다고 말하고 싶네요.
많은 공부가 되었습니다.
좋은 글 감사합니다
선거 앞두고 시간이 느리게 가는 것 같아요; 네거티브때문에 암 걸릴 지경
빅데이터라고 무작정 믿으면 안되겠군요... 빅데이터 기술의 알고리즘을 이용한다는 생각을 할수도 있다는걸 알았네요ㄷㄷ
좋은 포스팅 감사합니다
네이버는 언론이 아니라해도 충분히 여론 조성이 가능합니다.
그렇기 때문에 언제나 공정하고 신중해야 하지 않을까요
좋은 포스팅 감사합니다.
리스팀합니다.