R-POINT

방대하다, 다양하다, 빠르다 지금은 ‘빅데이터 시대’

글 _ 공병훈(협성대 미디어영상광고학과 교수) / 일러스트 _ 이혜헌

 

 

빅데이터, 새로운 서비스와 비즈니스를 만들다

스마트폰을 비롯한 모바일 디바이스들은 일상화된지 오래다. 사물인터넷과 5세대 이동통신의 확산은 이미 예정된 미래다. 인터넷은 실시간으로 문자와 숫자 데이터, 그래픽, 영상과 같은 다양한 종류의 데이터들을 생성한다. 디지털 기술 환경에서 생성되는 데이터들은 수십 테라바이트(terabyte, 1조 바이트) 정도로 양이 방대하고, 가늠하기 힘들 만큼 종류가 다양하다. 우리는 이렇게 실시간으로 생성되는 자료들을 ‘빅데이터’라고 부른다.
소셜 미디어와 사물인터넷은 사람들의 일상생활 데이터를 수집해 빅데이터를 만든다. 이 데이터들이 주목 받는 이유는 인공지능과 소프트웨어를 통해 다양하게 활용되기 때문이다.
빅데이터를 처리하고 분석하는 시스템은 기존에 없던 새로운 서비스와 비즈니스를 만들어내고 있다. 가장 대표적인 것이 구글이다. 구글은 운전자들이 내비게이션 앱을 사용하는 데이터를 축적하고 분석해 최적의 운전 경로를 제공한다. 페이스북은 또 어떤가. 포스트로 올려진 사진 속에서 특정 사용자의 모습을 구별해내 태그를 작성하라고 요청한다. 유튜브는 2500만 명에 이르는 사용자들의 영상 콘텐츠에서 저작권을 위반한 영상, 그래픽, 오디오를 판단해낸다. 이 외에도 아마존닷컴, 넷플릭스 등이 빅데이터를 활용한 새로운 사업들을 펼치고 있다.
시장조사기관 가트너(Gartner)는 빅데이터를 “미래 경쟁력을 좌우하는 21세기 원유”라고 정의했다. 빅데이터 기술이 다양한 형태로 구성된 방대한 크기의 데이터로부터 경제적으로 필요한 가치를 추출할 수 있도록 디자인됐기 때문이다.


빅데이터의 세 가지 특징, 크기 · 다양성 · 속도

가트너는 빅데이터의 특징을 세 가지로 설명한다. 첫째, 데이터의 물리적 크기(volume)다. 소셜 미디어 데이터, 소비자와 사용자 데이터, 웹과 센서 데이터 등 얼마든지 확장가능한 데이터의 양을 뜻한다. 둘째, 데이터의 다양성(variety)이다. 페이스북, 인스타그램, 유튜브 등에서 수집된 데이터, 사용자의 웹 서버 사용 흔적인 웹 로그(web log), 이미지 · 영상 · 음원과 같은 데이터 등 형태에 따라 종류가 다양하다. 셋째, 데이터를 처리하는 속도(velocity)다. 속도는 데이터를 수집 · 가공 · 분석하는 일련의 과정을 실시간이나 일정한 주기에 맞춰 처리할 수 있는 능력이다.
인공지능 또는 지능의 핵심은 데이터를 기초로 적절하게 일반화하는 기능이다. 네비게이션이 교통 정보를 종합해 서울에서 부산까지 최적의 경로와 운전 시간을 판단해 제시하는 것도 일종의 일반화이다. 인공지능과 인간의 학습은 이제까지 경험한 내용을 분석해 미래를 예측하는 일반화 과정의 수행이라고 할 수 있다.
한 가지 사례를 들어보겠다. 친구와 사진을 찍었는데 친구가 자신의 계정에 그 사진을 올린다. 그러면 페이스북은 나에게 ‘당신이 맞냐’는 메시지를 보낸다. 페이스북은 40억 명이 넘는 전 세계 사용자들의 활동을 처리하면서 그 사진 데이터를 어떻게 찾아낼 수 있을까. 페이스북 프로필이나 사진에서 사용자의 패턴을 인식하고 친구가 올린 사진과 패턴이 일치하는지를 판단한 것이다. 뿐만 아니라 페이스북 친구가 답글이나 ‘좋아요’로 상호작용을 한 데이터들을 통해 두 사람의 관계를 파악한다. 얼굴과 목소리를 인식하고, 병을 진단하며, 재생된 음악의 가수와 작곡가를 알려주는 기능도 이와 비슷한 원리다.



빅데이터; 디지털 기술 환경에서 수십 테라바이트 정도로 양이 방대하고
가늠하기 힘들 만큼 종류가 다양하며 실시간에 생산되는 자료들
 

  

빅데이터와 인공지능의 진화
‘기계학습(machine learning)’이란 방대한 데이터를 분석해 미래를 예측하는 기술이다. 컴퓨터는 스스로 학습 과정을 통해 입력되지 않은 정보를 습득하고 문제를 해결한다. 인공지능 프로그램은 기계학습을 통해 스스로 패턴을 찾아낸다. 그 과정을 세 단계로 나눌 수 있다. 정보가 전혀 없는 상황에서 수많은 데이터를 비슷한 것끼리 ‘분류’하고, 알고리즘을 활용해 군집 특징을 ‘추출’한 다음, 더욱 복잡한 계층구조를 만드는 과정을 수천수만 번 이상 ‘반복’하는 방식이다. 이를 통해 가장 최적화된 알고리즘 체계를 스스로 찾아낸다. 여기에서 데이터는 소셜 미디어에서 ‘좋아요’를 누르거나 서로 공유한 데이터는 물론, 거리의 사람들과 건물 등을 모두 포함한다.
‘딥러닝(deep learning)’은 컴퓨터가 여러 데이터를 이용해 스스로 학습할 수 있도록 인공신경망을 기반으로 구축한 기계학습 기술을 뜻한다. 인공신경망은 인간의 두뇌와 같이 신경망의 유기적 작용 구조와 원리를 구현한 컴퓨터 프로그램이다. 패턴 인식을 통해 사진이나 영상에서 개체를 회전하거나 늘리더라도 복잡한 연관성을 찾아낼 수 있다. 때문에 딥러닝은 음성과 이미지 인식, 사진 분석 등 여러 분야에서 활용되고 있다.
기계학습과 딥러닝 기반의 인공지능은 우리가 소셜 미디어에서 주고받는 텍스트와 채팅 앱의 대화 내용들을 통해 여론을 판단하고, 미디어와 사용자들이 생성하는 데이터를 수집해 주식을 거래하거나 패턴을 인식한다. 이러한 방법으로 인공지능은 인간이 파악하기 힘든 사이버 공격이나 바이러스의 확산을 감지하고 잘못되거나 불법적인 신용카드 사용을 예방할 수도 있다.

제4차 산업혁명 환경은 빅뱅처럼 우주 별무리보다 많은 빅데이터들을 생성한다. 인공신경망 기능의 인공지능은 우리들의 일상생활, 기업 활동 그리고 공공 공간에 이르기까지 나날이 진화를 거듭하고 있으며, 실시간으로 자료를 수집 · 분석해 예측하고 반응한다. 이러한 딥러닝 소프트웨어는 사물인터넷 서버, 주식 투자를 위한 서버, 자율주행 자동차, 로봇 등에 적용돼 언제 어디에서나 자신의 역할을 수행하며 빠른 속도로 진화할 것이다.
구글은 2017년 12월 서울에서 열린 ‘구글 AI 포럼’에서 “구글 포토를 통해 인간을 뛰어넘는 이미지 인식기술을 달성하는 것이 목표”라고 말했다. 빅데이터를 통한 기계학습과 딥러닝 기반 인공지능 기술의 중요성을 강조하고 있다. 분명 이 기술을 가진 기업이 4차 산업혁명 시대를 이끌어갈 주역이 될 것이다.

 

2019-04-01

WORK > JUMP UP 카테고리의 다른 글 보기

    최상단으로 가기