본문 바로가기

Book

빅데이터 시대, 성과를 이끌어내는 데이터 문해력을 읽고

2022년 목표는 데이터 문해력을 갖춘 데이터 분석가가 되는 것이다. 이에 대한 첫걸음으로 데이터 문해력은 무엇인지에 대해서 정확히 이해하는 것 부터 시작하려고 한다. 타이밍이 좋게 사내 독서 소모임에서 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력이라는 책으로 북스터디를 하게 되었고 책을 읽고 느낀점과 실천할 점을 적어보려고 한다.

데이터 문해력이란 무엇인가?

책을 읽기 전에 이해하고 있던 데이터 문해력의 정의는 '데이터 속에서 무언가를 읽어내는 능력' 이었다. 내가 존경했던 쏘카 데이터 그룹장님은 200개가 넘는 지표가 있는 리포트 속에서 시사점을 찾아내는 능력이 탁월하셨는데 숫자를 읽어내는 능력이 정말 뛰어나다고 생각했었다. 나 역시도 복잡한 숫자 속에서 헤매지 않고 무언가를 읽어내는 능력을 기르고 싶었다. 하지만 이 책에서 설명하는 데이터 문해력의 정의는 지금까지 이해하고 있는 것과는 전혀 달랐다. 책에서 정의하고 있는 데이터 문해력은 '스스로 정답에 대해 고민하고 데이터를 무기삼아 합리적으로 논할 수 있는 능력'이었다.책에서는 이를 생각하고 생각하기라고 표현하고 있는데 처음 언급한 "생각하고"는 분석 전에 문제 및 목적을 정의하고 가설을 구축하는 것을 의미한다. 다음 언급하고 있는 "생각한다"는 분석 결과에 대한 해석 및 스토리를 구축하는 것을 의미한다. 데이터 문해력이라는게 누구나 갖고 있을 법한 덕목인 것 같지만 데이터와 관련된 실무에서도 데이터 문해력을 갖춘 방식으로 일을 하지 않은 경우가 비일비재하다. 예를 들면 문제는 정의하지 않은채 예쁜 시각화를 하고 이를 해석하는 경우, 의미 없이 수요 예측 모델을 만드는 경우 등이 있다. 

Why? 에 대해서 끊임 없이 질문해봄으로서 문제 상황을 명확하게 정의하기

데이터 문해력을 갖춘 인재가 되기 위한 첫번째 실천사항은 Why에 대해서 끊임없이 질문해보는 것이다. 쿼리를 통해 데이터를 조회하고 추출된 데이터를 바탕으로 분석 및 시각화를 하기 전에 먼저 문제를 명확하게 정의해야 한다. 맨 처음 타다 데이터 팀에서 일 했을 때를 돌아보면 데이터를 마음껏 뽑아볼 수 있는 환경에 감탄한 나머지 무작정 데이터를 추출해보고 시각화를 했었다. 훌륭한 인사이트를 발견하긴 했지만 어떤 문제를 해결하기 위해 데이터를 추출했는지에 대해서는 까맣게 잊고 있었다. 책에서 이와 같은 업무 프로세스는 바람직하지 못하다고 언급하고 있다. 데이터를 뽑는 행위나 분석하는 행위들은 특정 문제를 해결하기 위한 방법 중 하나이며 문제를 해결하기 위해서는 해결하려는 문제가 무엇인지 먼저 정의하는 것이 중요하다.

실제로 타다 데이터 팀에서 겪고 있는 여러 문제들에 대해서 5whys 기법을 통해 본질이 무엇인지 파고드는 훈련을 하고 있다. 하나의 사례를 소개해보겠다. 타다에서는 차량 재배치 알고리즘이라는 것이 존재한다. 드라이버가 기존의 승객을 내려주고 다음 승객을 태우기 위해 대기하기 좋은 대기지를 추천해주는 알고리즘이다. 예를들어 학동역 인근에서 기존 승객을 내려줬다면 다음으로는 압구정로데오 역으로 가서 대기하는 것이 그 다음 승객을 태우는데 유리하다고 드라이버앱 UI를 통해서 보여주고 있다. 하지만 중형택시 라인업인 타다 라이트에서 드라이버님들이 알고리즘이 추천해주는 대기지를 40% 밖에 따르지 않는 문제가 있었다. 그동안은 이 문제의 원인이 무엇인지 집요하게 파고들지 않고최적화 알고리즘을 고도화 하는 작업만 지속적으로 수행해왔었다. 하지만 데이터 문해력 책을 읽고 난 후 문제의 본질이 무엇인지 파악하는 것이 더 중요하다는 것을 깨닫고 5whys 기법을 통해 문제의 원인이 무엇인지 파고들었다.

[문제] 타다 라이트 드라이버님들은 추천 대기지를 40% 밖에 따르지 않는다.
[질문] 왜 타다 라이트 드라이버님들은 추천 대기지를 40% 밖에 따르지 않을까?
[대답] 추천 대기지를 따랐음에도 불구하고 실제 콜이 없었던 경험을 많이 해봤다.
[질문] 왜 콜이 없었던 경험을 많이 해봤을까?
[대답] 추천 대기지역도 지금 지역보다 콜이 3~4개 정도 밖에 많지 않다.
[질문] 왜 콜이 3~4개 정도 밖에 많지 않을까?
[대답] 콜이 10개 이상 많은 지역으로 보내려면 너무 먼곳까지 차량을 보내야한다.
[질문] 왜 콜이 10개 이상 많은 지역은 지금 드라이버의 위치에서 너무 멀리떨어져 있을까?
[대답] 아직 서비스 초기이기 때문에 콜이 많은 지역은 강남에 한정되어 있다.

이를 통해 타다 라이트 드라이버님들은 추천 대기지를 40% 밖에 따르지 않는 이유를 콜이 많이 나오는 지역이 강남에만 한정되어 있기 때문임을 알아냈다. 확실하게 수요가 존재하지 않으면 (추천 대기지가 강남구가 아니면) 재배치를 보내지 않는 편이 낫고, 강남을 제외한 지역에서도 수요의 규모가 커지면 강남을 제외한 지역에도 재배치를 보내는 것 전략을 취하는 것이 좋을 것 같다는 액션 플렌을 도출할 수 있었다. 

곧바로 해결책을 도출하기 전에 문제의 원인을 명확하게 규명하기

데이터를 활용한 프로세스의 핵심은 문제 - 원인 - 해결책을 명확하게 정리하는 것이다. 논리적인 사고란 전체적인 문제 해결의 스토리를 탄탄하게 구성하고 설득력을 높이는 것이다. 이를 위해서는 문제 - 원인 - 해결방안의 스토리를 기억하고 지금이 어떤 단계를 밟고 있는지 점검하는 것이 매우 중요하다. 문제 해결 프로세스에서 대다수의 사람들이 하는 실수는 데이터를 활용해서 문제 현황을 파악하고 곧바로 해결방안에 달려드는 것이다. 하지만 문제의 원인을 알아야 해결책을 도출해낼 수 있다.

위의 사례에서 처럼 타다 라이트 드라이버님들이 추천 대기지를 40% 밖에 따르지 않는 문제를 찾고 이를 해결하기 위한 액션 아이템을 고민하는 것이 아니라 문제를 일으킨 원인이 무엇인지 먼저 밝혀내야 한다. 단순히 참신한 아이디어만 내면 된다는 마음가짐을 갖고 있다면 데이터는 애당초 필요 없다. 원인을 깊게 분석하고 폭넓게 고찰하여 여러 가능성을 생성하는 것과 원인 분석을 건너뛰거나 소홀히 하고 도출한 해결방안에는 엄청난 차이가 있다.

끝으로

데이터 문해력 책을 읽고 나온 2가지 실천사항은 아래와 같다.

1. Why? 에 대해서 끊임 없이 질문해봄으로서 문제 상황을 명확하게 정의하기
2.  곧바로 해결책을 도출하기 전에 문제의 원인을 명확하게 규명하기

스타트업 데이터 사이언티스트로서 그 동안은 너무 기술적인 성장에만 집중했었던 것 같다. 최신 머신러닝 기법들을 공부했었고 어떻게 하면 깔끔한 파이썬 코드를 짤 수 있는지 고민했었다. 하지만 기술적인 성장만큼 중요한 것은 문제를 정의하고 이에 대한 원인을 집요하게 파고드는 것이다. 2022년은 3년차 데이터 사이언티스트로 접어드는 해이다. 데이터 문해력을 갖춘 인재로 한단계 더 성장하고 싶다.