메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

디지털라이프

자동으로 작문 경력 쌓기

한빛미디어

|

2012-02-17

|

by HANBIT

13,686

제공 : 한빛 네트워크
저자 : Robbie Allen
역자 : 전경원
원문 : How I automated my writing career

작가로 활동하던 어떤 사람이 소프트웨어와 자료를 이용해서 집필 과정의 지루한 부분을 자동화 하기로 마음 먹었다.

Robbie Allen 2001년에, 난 책을 쓰고 싶어서 좀이 쑤셨다. 다들 그러하듯이 나도 순진하게, 종이에 펜만 갖다 대면 책이 써지는 것으로 여기며 "맘만 먹으면 책 한두권쯤은 금방 쓸 수 있어."라고 생각했다. 책을 쓰기로 마음먹은 후, 집필 작업이란 건 고른 주제에 대해 배우고, 조사하고, 정리하는데 샐 수 없을 정도의 많은 시간을 들여야 하는 일이라는 걸 알게 되었다. 하지만, 난 거침없이 나아갔고 5년이란 기간 동안 10권의 책을 집필 또는 공동집필 해냈다. 나는 고생을 즐기는 타입이다.

그 기간 동안 내 본업은 프로그래머였다. 난 16년간이나 프로그램을 만들어왔다. 내 모든 경력은 사람들이 자동화할 수 없다고 생각하는 것을 (컴퓨터를 이용하여) 자동화하는 것에 집중되어 있었다. 10번째 책을 쓸 즈음에 내 몸의 또 다른 구석이 근질거림을 느꼈다. 집필의 지루함에 슬슬 진력이 나기 시작했고, 원고료 또한 많은 시간을 투자할 만큼 높지 않았다. 집필을 자동화할 수 없을까 하는 생각이 들었다.

터무니없는 소리다. 그렇지 않은가? 웃자고 하는 말도 아니고, 컴퓨터가 어떻게 유익한 무언가를 일관성 있게 써 내려갈 수 있겠는가? "무언가를 컴퓨터로 자동화하는 게 가능해?"라는 질문은 바로 내가 답하기 위해 애써온 전문 분야이다. 그래서 나는 글을 쓸 수 있는 소프트웨어를 만드는 모험을 떠나게 되었다. 이 모험은 책 10권을 쓰는 것보다 더 많은 노력이 필요했지만, 12명으로 이루어진 팀을 결성한 후엔 프로그램을 완성할 수 있었고, 이 프로그램을 사용하여 9달 동안 스포츠 관련 글을 10만 개 넘게 작성할 수 있었다.

우리가 만든 소프트웨어에 대해 자세히 다루기 전에, 소프트웨어가 갖고 있는 훌륭한 작가로서의 자질에 대해 알아보자.
  • 소프트웨어는 인간 작가처럼 띄엄띄엄 일하지 않고 항상 일한다.
  • 소프트웨어는 (콘텐츠 농장 형태의 회사가 흔히 겪는 문제인) 봉급이 적다고 노동조합을 결성하거나 집단소송을 제기하지 않는다.
  • 소프트웨어는 지루해하거나 자기 자신을 자동화하는 방법을 고민하지 않는다.
  • 소프트웨어는 지속적으로 재프로그램, 리팩토링 등을 통해 개선될 수 있다.
  • 소프트웨어는 여러 명이 입력한 자료를 활용할 수 있다. 이건 흔히 고립되어 홀로 (편집자까지 고려하면 둘이서) 하는 전통적인 작업 형태와 구분된다.
  • 아마도 가장 중요한 점은 소프트웨어는 인간 작가 혼자 (또는 일련의 그룹이) 할 수 있는 양보다 훨씬 많은 양의 자료에 접근하여 분석할 수 있다는 점이다.
그렇지만, 소프트웨어가 만병통치약이 될 수는 없다. 아쉽게도 (아직) 모든 내용을 자동화할 수는 없다. 우리 회사(Automated Insights)가 자동화한 콘텐츠는 주로 정량적인 것들이다. 이건 일종의 속임수와 같다. 우리는 숫자와 자료에 의미를 부여하는 방식으로 콘텐츠 생산을 자동화했다. 처음으로 시도한 분야는 스포츠 관련 콘텐츠였다. 스포츠 콘텐츠는 본질적으로 자료에 크게 의존한다. 우리가 추정하기론, 70%에 이르는 스포츠 관련 기사가 숫자를 한 형태에서 다른 형태로 바꾸는 식으로 자료를 분석하고 있다.

우리의 기술은, 구조화된 자료를 담고 있는 대용량 데이터베이스, 통계자료의 실시간 피드, 문구를 담고 있는 커다란 데이터베이스, 그리고 이러한 것들을 묶어 두 문장에서 여덟 문장 길이의 단락으로 이루어진 기사를 만들어내는 알고리즘을 한데 묶은 것이다. 이 알고리즘은 데이터에서 흥미로운 패턴을 찾아 쓸 내용을 결정한다.

2010년 11월에 우리가 선보인 StatSheet Network는 완전히 자동화한 345개의 웹사이트 모음으로, 각 웹사이트는 디비젼-1 NCAA 농구팀의 정보를 보여준다. 내가 가장 좋아하는 팀인 UNC Tar Heels의 페이지는 아래와 같다.


소프트웨어가 자료를 수집해서 간략한 경기 보고서를 생성한다. (Click)


물론 일반적인 농구 사이트에서 볼 수 있는 통계자료도 있지만, 그 외에 시각화된 자료와 완전 자동으로 생성된 기사도 접할 수 있다. 14가지에 이르는 여러 유형의 기사와 경기 보고서, 금주의 선수 미리보기, 역사적 기록 등이 자동으로 생성된다. 최근엔 이와 유사한 (Detroit Tigers 사이트 등) MLB 팀 사이트를 출시했으며, 곧 NFL과 NCAA 축구팀 사이트도 선보일 예정이다.

스포츠는 우리가 작업하고 있는 여러 범주 중 하나에 불과하다. 우리는 금융, 부동산과 몇몇 자료 집약적인 산업에 대해서도 작업을 하고 있다. 가능한 분야에 대해 제한을 두지 말기 바란다. 우리는 이 기술이 확실히 작동한다고 보장할 수 없는 산업으로부터 지속적으로 기술 적용 요구를 받고 있으며, 이러한 산업에는 의약품 임상 실험, 도메인 명 등록 등의 분야도 포함된다. 커다란 자료 집합에서 의미를 도출하고자 하는 분야라면 무엇이든지 이 기술의 잠재적 적용 대상이 된다.

인간 대(對) 자동화가 아닌 인간과 함께하는 자동화

긴 서술문을 작성할 수 있는 프로그램을 만드는 건 모든 종류의 인공지능, 기계 학습, 자연어 문제를 포함하는 매우 어려운 작업이다. 하지만 적절한 재능의 (그리고 자금 지원의) 조합으로 우리는 이걸 만들어 낼 수 있었다. 이 일은 소프트웨어와 문자 언어가 함께 작동하는 방법에 대한 예리한 이해가 필요한 작업이다.

나는 종종 소프트웨어로 생성한 글은 매우 단조롭거나 형식적이라는 의견을 듣는다. 이건 소프트웨어를 제작한 이들이 단조롭고 형식적인 글을 사용하기 때문이다. 소프트웨어도 여느 작가처럼 자기주장이 강한 글을 생성해 낼 수 있다.

언론인에게서 흔히 듣는 재밌는 질문 중에 이런 것이 있다. "내 일이 자동화되어 직장을 잃게 되는 날이 언제쯤 올까요?" 난 이 질문이 우스꽝스럽다고 생각하는데, 이 질문이 우리의 소프트웨어가 어떤 주제에 대해 완벽한 글을 쓸 수 있게 된다면 아무도 이 주제에 대해 글을 쓰려 하지 않을 거라고 가정하고 있기 때문이다. 이런 일은 일어나지 않을 거다. 그 대신 미디어 업체는 우리의 소프트웨어를 이용해서 사업을 확장하려 할 것이다. 초기엔 매스컴이 다룰 여력이 없는 주제에 대한 기사를 생성하는 데 소프트웨어를 이용하는 형태를 띨 것이다. 다르게 말하자면, 소프트웨어가 생성한 콘텐츠를 편집과정을 거쳐 출판사의 의도에 맞도록 수정해야 함을 의미한다. 이 일은 여전히 사람이 해야 한다. 순전히 분량을 채우기 위한 내용을 생성하는 데 쓰는 시간은 줄어들 것이며, 그래야만 한다. 이제 사람들은 더욱 질적인, 부가가치를 창출하는 해설 등의 본질적으로 사람이 잘할 수 있는 분야에 집중할 수 있게 될 것이다. 분량 채우기 용도의 이야기는 컴퓨터가 더 잘 쓸 수 있기에 자동화할 수 있다(그리고 아마도 그래야만 할 것이다).

소프트웨어는 세분화된 지역 특화 콘텐츠를 제공할 수 있고, 이건 꽤 수익성이 있다. 많은 업체가 세분화된 지역 특화 콘텐츠를 제공하려고 노력하였지만, 아주 미비한 성공만을 거두었다. 미국의 (또는 전 세계의) 모든 마을 단위로 특화된 콘텐츠를 제공하는 건 너무 어려운 일이다. (예를 들어, 고등학교 학원 스포츠와 같은) 일부 분야에선 소프트웨어로 콘텐츠를 생성하는 방식이 매우 잘 들어맞는다. 앞으로 몇 년 안에 자동 생성된 콘텐츠가 큰 역할을 해내는 걸 확인할 수 있을 것이다.

소프트웨어가 쓴 책이란?

Automated Insights 사를 운영하는 데 온 신경을 집중하느라, 최근엔 책을 쓸 시간이 없었다. 난 동료에게 우리의 소프트웨어로 하여금 내 다음 책을 쓰게 해야겠다고 말했다. 동료가 날 보더니, "그게 가능한 일이에요?"라고 물었다. 내가 듣기 좋아하는 말이다.

소프트웨어로 쓴 책이란 게 가능하긴 한 걸까? 우리의 소프트웨어는 현재 여덟 문단을 생성할 수 있지만, 콘텐츠로서의 가치를 갖는 여덟 장(chapter)을 생성하는 것도 가능할까? 답은 "그렇다"이지만, 지금 현재로선 내가 써온 것과 같은 기술 서적은 생성하지는 못한다. 우리의 기술을 확장해서 좀 더 많은 분량을 생성하게 하는 건 어렵지 않다. 이게 문제가 아니다. 현재 우리 소프트웨어는 구조화된 자료를 정성적으로 분석하는 데 최적화되어 있다.

내가 쓴 책들은 자료에 의존하는 분야가 아니라, 사실상 정성적인 분야이다. 난 내가 경험한 것들 중에서, 추가 연구를 수행하고, 작업을 수행할 가장 좋은 방법을 결정하고 그것을 문서화했다. 우리는 이와 같은 정성적인 분석을 하는 소프트웨어를 만드는 초기 단계에 있고, 이는 대단히 어려운 도전이 될 것이다. 현재, 소프트웨어를 이용한 글쓰기는 반복적인 콘텐츠의 자동화에 쓰이고 있다. 이런 건 책을 쓰는 데엔 도움이 거의 안된다.

단기적으론 오라일리 사를 비롯한 출판사의 작가들은 직업을 잃을까 걱정할 필요가 없다. 하지만, 난 먼 훗날까지 자동화된 책쓰기를 내버려 두진 않을 것이다.
TAG :
댓글 입력
자료실

최근 본 상품0