DATA와 DATE

도대체 원하는 게 뭐예요?

‘데이터 지목역량’이란 말그대로 필요한 데이터를 지목할 수 있는 역량을 말합니다. 실제 그 데이터가 존재하는지는 그 다음에 확인해도 됩니다. ‘아, 이땐 이런 데이터가 필요하겠구나’라고 생각할 수만 있어도 충분하죠. 중요한 건, 내게 필요한 데이터가 무엇인지 명확히 알아야 한다는 것입니다.

글 _ 강양석 (책 《데이터로 말하라》의 저자)

 

‘도대체 원하는 데이터가 뭐예요?’

혹시 회사에서 위와 같은 말을 들은 적이 있나요? 그렇다면 당신은 데이터 지목역량이 부족한 사람일지도 모릅니다. 한데 필요한 데이터를 정확히 지목하고 그 목적을 명확히 전달하는 사람, 즉 데이터 지목역량을 갖춘 사람은 앞선 상황과 전혀 다른 답변을 마주합니다. “아 그 데이터 이렇게 쓰시려는 거예요? 그런데 어쩌죠. 요청하신 데이터는 없습니다. 대신에, 그 목적이라면 이 데이터가 도움이 될 거예요.” 어떤가요. 훨씬 더 건설적인 논의가 이뤄질 수 있지 않을까요? 그럼 간단한 사례를 통해, 데이터 지목역량에 대해 더 자세히 알아봅시다.




위의 두 가지 표를 봅시다. 좌측은 국내 자동판매기의 연도별 생산량, 우측은 자동판매기의 생산금액을 나타내고 있습니다. 자동판매기는 쉽게 말해 자판기를 뜻합니다. 좌측이 한 해 동안 만든 자판기의 총수량을, 우측은 자판기를 만드는데 들어간 총비용을 말하고 있는 셈이죠. 만약 두 개의 데이터를 보고 “국내 자동판매기 산업은 성장하고 있습니까?”라고 묻는다면 당신은 어떻게 답할 건가요?
 

진짜 필요한 데이터가 무엇인지 파악하는 능력

자판기 생산량은 상승하고 있는데, 이상하게도 생산금액은 하락합니다. 생산량만 보면 자판기 산업은 분명 성장하는 중인데, 생산비용을 보면 침체에 빠진 모습이죠. 이 경우에는 어떤 데이터를 사용하느냐에 따라 정반대의 결론이 나올 수 있습니다.

먼저 두 데이터의 관계를 파악해봅시다. 당연한 이야기지만 생산금액은 생산량과 평균생산단가의 곱으로 나타납니다. 따라서 생산량이 증가하는 상황인데 생산금액이 하락하고 있다는 것은 분명 생산단가가 하락하고 있다는 뜻이 되겠죠.

생산단가가 하락하는 이유는 무엇일까요? 아마도 생산기술의 발전으로 인한 제조원가 하락을 꼽을 수 있을 겁니다. 한데 아무리 제조원가가 떨어진다 해도 생산량과 생산금액이 이렇게까지 반대 방향으로 나오기는 쉽지 않습니다. 게다가 막연한 생각으로도 저 기간 동안 우리가 경험했던 자판기들은 더 화려해졌는데, 생산원가 하락이라는 건 좀처럼 와 닿지 않습니다.
이때 데이터 지목역량을 발휘해, 우리에게 진짜 필요한 데이터가 무엇인지 파악해 봅시다. 만약 ‘자판기의 유형별 판매율과 평균생산금액’이란 데이터가 있다면 어떨까요? 바로, 시장에 여러 종류의 자판기가 있다는 사실에 착안한 것입니다. 자판기 시장에 변화가 생겨 대형 자판기보다 소형 자판기의 비중이 증가했다면, 앞선 두 가지 데이터의 결과를 설명할 수 있지 않을까요? 생산량이 늘더라도 대형 자판기가 아닌 소형 자판기가 늘어난 거라면, 생산금액이 줄어든 이유를 설명할 수 있을 테죠. 그렇다면 자판기 산업의 성장에 대한 분석도 한결 쉬워질 겁니다.


데이터 지목역량과 가설 수립

데이터를 지목할 때, 두려워해선 안됩니다. 당장 결론을 내겠다는 게 아니라, 그 데이터를 통해 결론을 낼 수 있는지 확인해보겠다는 거니까요. 데이터가 실제로 존재 하는지에 대해선 크게 신경 쓸 필요가 없습니다. ‘내가 왜 그 데이터를 필요로 하는가’에 대해서만 명확하게 설명할 수 있으면 됩니다.

사실 데이터 지목역량은 좋은 가설을 수립하는 역량과 맞닿아 있습니다. 특정 현상의 맥락을 이해하고 좋은 상상력을 발휘해 가설을 수립할 수 있으면, 데이터 지목역량도 자연스레 따라오겠죠. 여러분이 음식점에서 식사를 마치고 나올 때 보이는 소형 자판기가 이번 상상의 중심 소재였던 것처럼 말입니다. ‘상식에 기반한 상상력’ 이것이 바로 데이터 지목역량의 핵심입니다.

2020-10-01

WORK > JUMP UP 카테고리의 다른 글 보기

    최상단으로 가기