책들의 우주/비즈

모두 거짓말을 한다, 세스 스티븐스 다비도위츠

지하련 2024. 3. 1. 15:26

 

 

 

모두 거짓말을 한다 Everybody Lies 
- 구글 트렌드로 밝혀낸 충격적인 인간의 욕망

세스 스티븐스 다비도위츠 Seth Stephens-Davidowitz(지음) 이영래(옮김), 더퀘스트



 

작년 말에 읽고 이제서야 리뷰를 올린다. 실은 기억이 가물가물하다. 예전엔 전체적인 내용을 대략 기억하곤 했는데, 이제는 노트를 한 다음 정리하지 않으면 쉽지 않다. 책을 읽으면서 다소 놀라웠던 사실들도 꽤 있었다. 이 책은 ‘빅데이터’에 대한 안내서다. ‘빅데이터’를 통해 우리는 무엇을 볼 수 있고 동시에 무엇을 알지 못하며 빅데이터가 가지고 올 유용함과 함께 그것의 우려스러운 점도 함께 언급된다.

 

나는 이 책을 통해 사람들이 ‘데이터과학’에 관해 가지고 있는 신화를 깨뜨리고 데이터과학이 무엇인지 확실하게 알리고 싶다. (45쪽)

 

저자의 이러한 목적은 충분히 달성되었다. 그리고 빅데이터란 무엇이며, 이를 통해 우리가 무엇을 알고 할 수 있는지 알려준다. 이런 점에서 이 책은 데이터과학에 대한 책이지, 심리학이나 트렌드 책이 아니다. 

 

포퍼는 프로이트의 이론에 반증가능성이 없다고 주장한 것으로 유명하다. 이론이 진실인지 거짓인지 검증할 방법이 없기 때문이다. (68쪽)

 

그러나 ‘데이터과학은 프로이트 이론의 많은 부분을 반증 가능하게 만든다’(69쪽) 저자는 어떻게 프로이트 이론을 검증할 수 있는가에 대해 설명을 이어 나간다.

 

구글은 다른 기업들이 할 수 없는 방식으로 빅데이터를 활용해 자동화된 돈의 흐름을 구축한다. 구글은 이 책에서 중요한 역할을 한다. (85쪽)

 

요점은 구글이 검색분야에서 지배적인 위치에 오를 수 있었던 이유는 단순히 경쟁자들보다 많은 많은 데이터를 수집했기 때문이 아니라는 점이다. 그들은 ‘더 나은’ 유형의 데이터를 찾음으로써 검색 분야의 지배자가 되었다. (87쪽)

 

구글의 데이터 수집 방법론은 이미 널리 알려져 있지만, 다른 경쟁자들이 구글 검색을 이기기란 이젠 불가능에 가깝다. 다만 최근 1~2년 사이가 엄청난 수준으로 발전한 채팅 기반의 인공지능 서비스와 연결된 검색 서비스가 이를 대체할 수 있을 가능성이 보일 뿐.

 

빅데이터 혁명은 점점 더 많은 데이터를 수집하는 것이 아니라 ‘적절한’ 데이터를 수집하는 것이다. (88쪽)

 

‘적절한’ 정보는 무엇일까? 검색 키워드, 즉 목적에 부합하는 정보일 것이다. 하지만 생성형 AI는 많은 데이터를 기반으로 ‘적절한’ 정보를 구성해낼 수 있다는 점에서 검색 서비스의 새로운 영역을 만들 것으로 예상된다. 2017년 출간된 이 책에서 생성형 인공 지능은 언급되지 않는다. 이 땐 인공지능이 이 정도로 빠르게 발달할 것이라 그 누구도 예상하지 못했으니까.

 

글을 분석하는 강력하고 새로운 도구로 ‘감성 분석Sentiment analysis’이라는 것이 있다. 과학자들은 이제 어떤 글의 특정한 단락이 얼마나 행복한지, 얼마나 슬픈지를 측정할 수 있다. (115쪽)

 

학자들은 단어들을 긍정적인 것, 부정적인 것으로 구분하여 코드화하여 전체적인 글의 흐름이나 기사를 분석할 수 있다. 이 책에 소개된 조사로는 ‘내용이 긍정적일수록 널리 전파될 가능성이 높다’고 나왔다. 즉 단어들도 데이터화, 코드화하여 분석할 수 있는 것이다. 

 

여기서 주목할 점은 사람들이 폭력적이고 파멸적인 이야기에 끌린다는 기자들의 일반적인 통념과 결과가 반대되는 것처럼 보인다는 것이다. 언론매체가 사람들에게 암울한 이야기를 많이 전달한다는 것은 사실일지 모른다. 보도국에는 ‘피 흘리는 기사가 주목받는다If it bleeds, it leads’라는 격언이 전해진다. 그렇지만 와튼경영대학교 교수들이 수행한 이 연구는 사람들이 명랑하고 기운을 돋우는 이야기를 원할지도 모른다는 것을 암시한다. ‘미소를 지으면 퍼간다If it smiles, it’s emailed’라는 새로운 격언이 나와야 할 지도 모른다. (123쪽)

 

뒤이어 언론의 정치적 편향성을 조사한 내용을 언급하는데, 다소 놀라웠다. 우리는 언론사 소유주의 입김이 작용할 것이라 믿었지만, ‘전체적으로 볼 때 연구결과는 소유주보다는 시장이 신문의 편향성을 결정한다는 사실을 보여준다.’ (127쪽)

 

거대한 음모 따위는 없다. 그저 자본주의가 존재할 뿐. (128쪽)

 

이처럼 이 책에는 데이터에 기반하여 사람들의 생각이나 판단 경향을 알아볼 수 있는 다양한 조사 방법들이 등장하고 책에서 언급된 실제 조사 결과들을 읽으며, 우리들이 가진 편견이 얼마나 무서운가를 새삼 알게 해준다.

 

사람들은 멀쩡하게 보이기를 원한다. 설문조사가 대부분 익명인데도 말이다. 이것을 사회적 바람직성 편향social desirability bias이라고 부른다. (139쪽)

 

이 검사결과는 대부분의 사람이 흑인의 얼굴과 ‘끔찍한’같은 부정적 단어를 연결할 때보다 ‘좋은’같은 긍정적인 단어를 연결할 때 몇 밀리 초 더 걸린다는 것을 지속적으로 보여준다. 백인 얼굴의 경우에는 패턴이 역전된다. 시간이 더 걸린다는 것은 자신조차 알지 못하는 암묵적인 편견이 있다는 증거다. 암묵적 연상 검사 implicit-association test (169쪽)

 

설문조사와 마찬가지로 소셜미디어는 진실을 얘기할 유인은 없다. 오히려 설문조사보다 진실을 말할 유인이 더 적고, 자신을 보기 좋게 포장할 유인은 더 크다. (189쪽)

 

페이스북 세상에서는 토요일 밤이면 모든 젊은이들이 근사한 파티에 간다. 실제로는 대부분이 집에서 혼자 넷플릭스Netflix 드라마를 몰아서 본다. (192쪽)

 

결국 믿을 수 있는 건 실제적인 데이터뿐일지도 모른다. 사람들은 언제나 거짓말을 하니까. 이는 이 책에서 반복되는 주제이며, 그래서 데이터에 기반한 조사와 분석이 어떤 의미를 가지는지를 알게 해준다. 

 

페이스 초기 투자자인 피터 틸Peter Thiel은 자신의 책 <<제로 투 원>>에서 위대한 기업은 비밀(자연에 대한 비밀이나 사람들에 관한 비밀)은 바탕으로 만들어진다고 말한다. (194쪽)

 

‘사람들이 말하는 것을 믿지 말고 행동하는 것을 믿어라’ - 넷플릭스(196쪽)

 

“빅데이터에는 설문조사와는 완전히 다른 방식으로 접근할 수 있습니다. 지역 같은 작은 부분을 확대할 수 있습니다.” (216쪽)

 

윈스턴 처칠 Winston Churchill은 이렇게 말한다. “30세 이전에 진보주의자가 아닌 사람은 냉혈한이고 30세 이후에 보수주의자가 아닌 사람은 멍청이다.”(213쪽) 그러나 이 책에 따르면 전혀 근거가 없었다. 사람들은 진보주의자가 되기도 했다가 보수주의자가 되기도 했다. 이는 연령과는 무관했다. 다만 “연구자들은 이 모든 데이터를 기반으로 정치적 입장이 형성되는 가장 중요한 연령이 18세라고 판단했다.”(214쪽)

 

이런 방대한 데이터를 기반으로 한 여러 조사들은 우리들이 가지고 있었던 많은 통념이 잘못되었음을 드러낸다. (이런 책들은 최근 상당히 많이 나오고 있는데, 이는 데이터 분석 장비나 기술의 발전이 한 몫 하는 것도 있을 것이다. 생성형 인공지능의 급속한 발달은 이를 가능하게 만든 하드웨어 기술에 있음과 비슷하게)

 

처음 세 가지(종교, 환경, 건강보험)는 가난한 사람의 기대수명 연장과 상관 관계가 없다. 체터 연구진이 지적하는 중요한 변수는 ‘그 도시에 부유한 사람이 얼마나 사는가’이다. 도시에 부유한 사람이 많을수록 그 곳의 가난한 사람들이 더 오래 산다. (…) 부유층의 행동방식이 빈곤층에 퍼져 가난한 사람들은 건강한 생활을 하게 된다는 것이다. (221쪽)

 

그렇지만 사람은 폭력적인 방향으로 이끄는 부정할 수 없는 요인이 무엇인지 아는가? 폭력적인 성향이 잠재된 사람들과 어울리며 술을 마시는 것이다. (242쪽)

 

이것이 적절한 양의 술을 마시면 건강이 개선된다는 인과관계를 의미할까? 아마도 아닐 것이다. 건강하기 때문에 적정한 양의 술을 마시는 것일 수도 있다. 사회과학자들은 이것을 ‘역인과관계’라고 한다. 적절한 음주와 건강 모두에 작용하는 독립 요인이 있을 수도 있다. 어쩌면 친구들과 많은 시간을 보내는 것이 적절한 알코올 소비와 건강으로 연결될 수도 있다. 사회과학자들은 이를 ‘변수 누락에 따른 편향 omitted-variable bias’이라고 부른다. (258쪽)

 

페이스북은 현재 하루에 A/B 테스트를 1,000건을 진행한다. 페이스북의 소수 엔지니어들이 하루에 시작하는 무작위 대조군 실험의 수가 전체 제약업계가 1년 동안 하는 실험보다 많다는 의미다. (263쪽)

 

‘회귀불연속설계 regression discontinuity design'. 사람들을 두 개의 다른 집단으로 구분하는 정확한 수치(불연속)가 있다면 경제학자들은 커트라인에 아주아주 가까운 사람들과 결과를 비교(회귀)할 수 있다. (290쪽)

 

연구자들은 스타이 학생들이 다른 학생들보다 인생에서 다 많은 성과를 올리는 이유는 좋은 학생이 스타이브슨트에 입학하기 때문이라는 결론을 내렸다. 스타이는 당신이 보다 높은 AP 점수를 받고 더 높은 SAT 점수를 받고, 더 좋은 대학을 입학하게 만들어주는 원인이 아니다. (291쪽)

 

하지만 빅데이터가 가진 힘이 너무 인상적이어서 무서울 때가 있다. 빅데이터는 윤리적 문제를 불러일으킨다.(318쪽) 이 책의 결론 부분은 빅데이터 분석에 대한 한계를 이야기하며 마무리 짓는다. 나는 그냥 일반적인 트렌드 책이라고 생각했지만, 데이터과학에 대한 깊은 통찰을 가지고 있었다. 그리고 수십년 전에 한국에서도 소개되어 상당한 충격을 준 킨제이 보고서도 언급되는데, 이 보고서가 잘못된 것임을 이 책을 통해서 비로소 알게 되었다. 그 땐 많은 사람들이 킨제이를 언급했는데.  

 

심리학자들은 더 이상 미국 남성의 10퍼센트가 동성애자라는 앨프리드 킨제이Alftred Kinsey의 그 유명한 추정을 믿지 않는다. 킨제이는 수감자와 매춘부를 표본으로 과다 추출한 설문 조사 결과에 근거했기 때문이다. (146쪽)

 

이 책 안에서 주요하게 언급된 책이 두 권 있었는데, 에이든과 미셸의 <<빅데이터 인문학Uncharted>>과 에덤 올터 Adam Alter의 <<멈추지 못하는 사람들 Irresistable>>이었다. 이 책 두 권도 구해 읽어볼 생각이라 여기 노트해 둔다. 두 권 모두 번역되어 있다. 

빅데이터 인문학

 

멈추지 못하는 사람들




세스 스티븐스 다비도위츠