[데이터산업 백서 2017] 데이터 기술 동향 - 데이터 시각화

June 30, 2017

[2017 데이터산업 백서]
데이터 기술 동향 : 데이터 시각화

 

 

가상현실과 인공지능과 같은 최신의 기술이 데이터 시각화와 결합하면서 새로운 차원의 시각화를 이끌고 있다. 가상현실에서 더욱 생생한 데이터 경험을 제공하는 몰입형 데이터 시각화가 더욱 중요해지고 있으며, 증강현실에서 더욱 정교한 시뮬레이션이 가능해짐으로써 과학 시각화가 의학, 공학, 교육 등의 분야에 적극적으로 활용되기 시작했다. 최근 몇 년 사이에 놀라운 성취를 이룬 인공지능은 딥러닝이 주도하고 있으며, 매우 복잡한 고차원 데이터를 다루는 딥러닝을 이해하고 구현하기 위해 고차원 데이터 시각화 기술이 다시 주목받고 있다. 나아가 인공지능이 스스로 의미있는 정보를 생성해내는 단계에 들어서면서 향후 데이터 시각화의 프로세스와 방법론에도 근본적 변화가 일어날 것으로 전망된다.

 

 

1. 데이터 시각화 기술 개요

 

데이터 시각화 기술은 과학기술의 발전과 사회적 변화에 많은 영향을 받으며, 오래된 기술과 최신의 기술이 공존하면서 다양한 유형과 수준에서 활용되고 있다.전통적인 통계 분석 도구와 프로그래밍 환경의 발전과 더불어 전문가 도구 역시 더욱 세분화되고 정교해지고 있다. 데이터 분석 환경의 변화는 데이터 시각화 기술의 변화와 밀접하게 관련되며, 통계적 시각화에 적합한 기존의 방법에 비해 인터랙티브 시각화에 적합한 기술의 비중이 확대되는 경향을 보인다. 데이터 시각화가 전문가의 영역을 넘어서 대중적으로 저변이 확대되는 추세에 따라, 더 사용자 친화적인 대시보드를 제공하는 비즈니스 인텔리전스(BI)의 영향력이 더욱 증가하고 있다. 또한 세분화되고 전문적인 분야에서도 해당 분야에 특화된 데이터 시각화 기술을 통해 전문성을 더욱 강화하고 있다.

 

가. 데이터 시각화의 정의

 

데이터 시각화(data visualization)는 ‘인지를 증폭시키기 위해 인간의 시지각 능력을 이용하는 데이터의 표현과 설명 방식(the representation and presentation of data that exploits our visual perception abilities in order to amplify cognition)’*으로 정의된다. 이 정의에 따르면 데이터 시각화는 다음과 같은 기능으로 이루어진다. 첫째, ‘데이터의 표현’은 선·막대·원과 같은 물리적 형태를 통해 데이터를 원료로 해 그 속성을 가장 잘 표현하는 방법을 뜻한다. 둘째, ‘데이터의 설명 방식’은 데이터의 표상을 넘어 색상, 주석 및 상호작용 기능의 선택을 포함하는 전반적인 의사소통작업으로 통합하는 방법에 관련된다. 셋째, ‘시지각 능력의 이용’은 인간의 눈과 두뇌가 정보를 가장 효과적으로 처리하는 방법에 대한 과학적 이해와 관련된다. 넷째, ‘인지의 증폭’은 정보를 효과적이고 효율적으로 사고와 통찰력 및 지식으로 처리하는 능력을 최대화하는 방법과 관련된다.

* Andy Kirk (2012), Data Visualization: A Successful Design Process, Packt Publishing, pp.16-17

 

나. 데이터 시각화 기술의 종류

 

데이터 시각화 기술은 매우 다양한 유형과 수준으로 활용되며, 모든 용도에 적합한 단일한 기술은 존재하지 않는다. 그러므로 각 기술이 가진 상대적인 강점과 약점, 기능과 목적을 확인하고 최신 기술 동향 등을 파악해 적절한 기술을 선택할 필요가 있다. 데이터 시각화 기술의 유형은 주요 목적에 따라 다음과 같이 분류될 수 있다. 첫째, 도표와 통계 분석 도구(charting and statistical analysis tools)는 주요 차트 생산성 도구와 강력한 시각화 기능을 제공하는 보다 효과적인 시각적 분석 또는 비즈니스 인텔리전스(BI) 응용 프로그램을 다룬다. 마이크로소프트 엑셀이나 태블로(Tableau)와 같은 프로그램을 예로 들 수 있다. 둘째, 프로그래밍 환경(programming environment)을 통해 시각화를 완벽하게 제어할 수 있으며, 이것은 차트·속성·이벤트 및 동작을 독창적으로 제어하기 위한 방법이다. D3.js와 프로세싱(processing), 그리고 R ggplot2를 예로 들 수 있다. 셋째, 전문가 도구(specialist tools)를 활용해 더 정교한 시각화를 제작하는 방법이 있다. 인포그래픽을 위해 어도비 일러스트레이터(Adobe Illustrator)를 활용하거나 모션그래픽을 위해 어도비 이펙트(Adobe Effect)를 활용하는 예를 들 수 있다. 또는 지리·공간 시각화를 위한 ArcGIS나 네트워크 시각화를 위한 지파이(Gephi)와 같이 특수한 종류의 시각화를 위해 제공되는 프로그램을 활용하는 예도 포함된다.*

 [그림 6-5-1] 차트와 통계 분석 도구(Excel), 프로그래밍 환경(D3.js), 전문가 도구(Instant Atlas)의 예

 

데이터 시각화 기술의 분류는 앞서 살펴본 것처럼 차트와 통계 분석 도구, 프로그래밍 환경, 전문가 도구로 크게 나눌 수 있는데, 서로 배타적인 것이 아니며 상호결합돼 기능을 보완하기도 하고 새로운 기술의 등장으로 인해 기존의 시각화 기술이 새로운 용도로 활용되기도 한다.

* Andy Kirk (2012), Data Visualization: A Successful Design Process, Packt Publishing, pp.161-169

 

 

2. 데이터 시각화 기술 동향

 

가. 데이터 분석 환경의 성숙에 따른 지배적 시각화 기술의 변화

 

데이터 시각화는 데이터 분석 과정에서 밀접하게 사용되기 때문에, 데이터 분석환경의 변화는 데이터 시각화에 대한 사용자의 요구에도 영향을 미친다. 빅데이터, 데이터과학, 머신러닝과 같은 연관 분야에 대한 관심은 데이터 시각화에 대한 관심과 흐름을 같이 한다. [그림 6-5-2]에서 볼 수 있듯이 데이터과학 분야에서 가장 많이 쓰이는 언어인 R의 지위는 변함이 없으나, 최근 파이썬(Python)이 급격히 그 격차를 좁히고 있으며, 다음으로 javascript가 뒤를 잇고 있다. 이러한 프로그래밍 언어의 순위는 데이터 시각화 분야의 언어의 순위에도 직접적인 영향을 미친다.

[그림 6-5-2] 머신러닝과 데이터과학 분야에서 사용되는 언어 순위(출처: IBM Developer Works)

 

1) 분석 전문가를 위한  R과 파이썬 기반의 시각화 기술

데이터 분석에서 R은 가장 많이 쓰이는 오픈소스 기술인 만큼, 매우 풍부한 시각화 라이브러리를 갖추고 있다. 체계적인 문법과 유려한 시각화가 특징인 ggplot2(http://ggplot2.org)는 R언어를 활용한 데이터 시각화를 대표하는 기술로서, 오랜 기간 사용되면서 지도 시각화를 위한 ggmap(https://github.com/dkahle/ggmap)과 같은 기술로 확장되고 있다. 그러나 동적인 시각화가 어렵다는 한계가 있는데, 인터랙티브한 시각화를 위해 shiny(http://shiny.rstudio.com/)와 같은 기술도 많이 활용되고 있다.

한편 파이썬은 최근 머신러닝 분야에서 중요한 역할을 담당하면서 더욱 주목을 받고 있으며, 통계 언어로 특화된 R에 비해 개발자 층이 두터워 R에 못지 않은 다양한 시각화 라이브러리를 갖추고 있다. 파이썬이 과학, 공학 및 교육 분야에서 널리 쓰이면서 MATLAB의 시각화를 계승하는 matplotlib(https://matplotlib.org)이 많이 활용된다. 그 외에도 통계적 데이터의 시각화에 적합한 seaborn(https://seaborn.pydata.org)이나 Altair(https://altair-viz.github.io), 그리고 인터랙티브한 시각화가 가능한 bokeh(http://bokeh.pydata.org)와 같은 시각화 라이브러리도 활용된다. 이와 같은 시각화 기술들은 다양한 분야에서 꾸준히 활용되고 있다.

 

2) 시각화 전문가를 위한  javascript 기반의 시각화 기술

데이터 분석의 결과를 공유하고 의사결정에 활용하기 위해 웹 환경에서 인터랙티브 시각화를 구현하려는 요구가 증가하면서, javascript 기반의 시각화 기술로 중심이 이동하고 있다. 가장 대표적인 웹 기반의 동적 시각화 라이브러리인 D3.js(https://d3js.org)는 다양한 데이터 타입에 대응해 기본 차트뿐만 아니라 복잡한 시각화의 구현에서 상당히 높은 자유도를 제공한다. 이와 같은 javascript 기반의 시각화 라이브러리는 꾸준히 증가하는 추세다. chart.js(http://www.chartjs.org)나 googlechart.js(https://developers.google.com/chart)와 같이 차트의 시각화 기술은 너무나 다양하며 목적과 특징에 따라 다양하게 활용된다. 오랜 기간 시각예술가들의 대표 언어로 자리매김한 processing(https://processing.org)은 본래 java로 만들어졌으나, 최근의 환경 변화를 반영해 p5.js(https://p5js.org)라는 자바스크립트 기반의 언어로 재탄생해 트렌드 변화에 대응하고 있다.

 

[그림 6-5-3] 프로그래밍 환경의 시각화 예

 

앞서 살펴본 R의 ggplot2, 파이썬(Python)의 matplotlib, 자바스크립트의 D3.js와 같은 각 분야의 대표적인 시각화 기술은 꾸준히 사용되고 있으며, 향후에도 두터운 사용자층으로 지속적으로 활용될 것이다.

 

나. 데이터 분석 서비스의 확산에 따른 사용자 친화적 대시보드 기술의 발전

 

1) 비즈니스 인텔리전스의 사용자 친화적 대시보드의 발전

데이터 시각화가 핵심적인 기능을 담당하는 비즈니스 인텔리전스(Business Intelligence: BI) 솔루션 순위에 변동이 일어나고 있다. BI 분야에서 장기간 1위를 지켜온 SAP(https://www.sap.com)의 위치를 비주얼 애널리틱스에 강점이 있는 태블로(Tableau, https://www.tableau.com)가 차지했다. 이러한 변화에는 태블로가 다른 BI 솔루션에 비해 직관적 사용성이 우수한 점이 영향을 미쳤다. 또한 최근 데이터 분석과 인공지능 플랫폼 구축에 집중하고 있는 마이크로소프트의 Power BI(www.powerbi.com) 역시 기존의 분석 기능에 더해 더 강력한 시각화를 선보이고 있다. 이러한 경향은 데이터 분석의 대중화에 따라 대시보드의 사용빈도 역시 증가하면서 분석가뿐만 아니라 다양한 이해관계자들에게 사용성이 중요하게 여겨지는 경향을 반영한다. 구글의 데이터 검색 결과를 시각화해 보여주는 구글 트렌드(Google Trend, https://trends.google.com)가 기존의 시계열 방식뿐만 아니라 다양한 시각화를 구현한 Visualizing Google Data 페이지를 선보인 것도 이러한 경향을 반영하는 것으로 볼 수 있다.

[그림 6-5-4] Magic Quadrant for BI and Analytics Platforms 2016~2017

 

 

[그림 6-5-5] 비즈니스 인텔리전스의 예

 

2) 전문분야를 위한 데이터 시각화 기술의 활성화

데이터 시각화 기술은 범용적 용도뿐만 아니라 특정한 전문 분야나 사용자 그룹을 위해 특화돼 사용되기도 한다. 자연어 처리를 위한 ElasticSearch는 Kibana(https://www.elastic.co/kibana)를 통해 언어적 정보를 다양한 그래픽적 방법으로 시각화해 파악할 수 있도록 돕는다. 또한 데이터 저널리스트를 위한 시각화 스튜디오인 Flourish(https://flourish.studio)는 데이터에 기반한 스토리텔링을 만들 수 있도록 한다. 또한 데이터 기반의 서비스가 자체 시각화 기술을 오픈소스화하기도 하는데, 우버(Uber)는 deck.gl(https://github.com/uber/deck.gl)이라는 WebGL 기반의 3D 지리정보 시각화 프레임워크를 최근 공개했다. 이처럼 전문가 도구를 활용한 데이터 시각화가 특정 기업이나 분야를 넘어 일반화되는 경향이 지속될 것으로 전망된다.

 

 

[그림 6-5-6] 전문분야 시각화의 예

 

다. 몰입형 데이터 시각화 기술의 부상

 

1) 3차원 시각화 기술의 중요성 증대

가상현실(Virtual Reality, VR) 기술이 보편화되면서 다양한 VR 헤드셋이 공급돼 선택의 폭이 넓어지고 최근에는 VR 전용 어트랙션이 등장하는 등 대중화 단계에 접어들고 있다. PC와 콘솔 기반 VR 헤드셋으로는 Facebook Oculus Rift, HTC Vive, Sony Playstation VR 등이 있고, 모바일 기반의 VR 헤드셋으로는 Samsung Galaxy Gear VR, Google Daydream 등 다양한 VR 디바이스가 보급되고 있다. VR 디바이스의 보급으로 스크린 중심의 2차원 데이터 시각화와 다르게 몰입감 있는 3차원 시각화의 필요성이 증가하고 있다. VR 보급에 장벽이 되고 있는 콘텐츠 부족 문제를 해소하기 위해 페이스북은 Oculus medium(https://www.oculus.com/medium)으로 쉽고 빠르게 콘텐츠를 제작할 수 있는 기술을 선보였다. HTC는 Vive Tracker(https://www.vive.com/eu/vive-tracker)로 3개의 트래커를 사용해 전신 추적을 할 수 있는 오픈소스를 공개해, 실시간으로 자연스러운 동작을 가상현실에서 구현할 수 있는 기술을 제공한다.

 

2) 가상현실 분야에 활용되는 몰입형 데이터 시각화

VR 환경에서 실감나는 경험을 제공하는 몰입형 데이터 시각화(immersive data visualization)의 중요성이 증대되고 있다. Virtualitics(https://www.virtualitics.com)는 데이터 시각화에 인공지능과 VR 기술을 결합해 가상현실 환경에서 마치 데이터 속에서 활동하는 듯한 경험을 제공함으로써 탐색적 데이터 시각화의 새로운 방법을 보여준다. 또한 구글 틸트 브러시(Google Tilt Brush, https://www.tiltbrush.com)는 VR 기술을 아티스트의 세계로 끌어들이고 있다. 디즈니(Disney)는 VR 영화(https://www.disneymoviesvr.com) 개발에 투자하고 있는데, Disney Research LA에서 개발한 iKinema(https://ikinema.com/Orion)는 VR 환경에서의 자연스러운 모션캡처와 바디트래킹 기술을 실시간으로 시각화하는 기술을 지원한다. 이와 같이 몰입형 데이터 시각화 기술은 VR 기술의 연구개발 및 상품화 과정에서 핵심적인 역할을 담당하고 있다.

 

 

[그림 6-5-7] 가상현실에서 데이터 시각화 기술의 예

 

3) 증강현실과 혼합현실( Mixed Reality,  MR) 기술의 보급

증강현실(Augmented Reality, AR)은 포켓몬고, 구글 워드렌즈와 같이 일상에서 활용되는 사례가 점차 증가하며 관심이 높아지고 있다. Microsoft HoloLens, Fove O, Razer OSVR과 같은 AR 디바이스도 다양화되고 있으며, PTC Vuforia(https://www.vuforia.com)와 같은 AR 플랫폼이나 Augment(http://www.augment.com)와 같이 이커머스에 특화된 AR 플랫폼도 등장하고 있다. 증강현실 역시 콘텐츠 부족의 문제를 해결하기 위한 기술이 필요하다. 증강현실 환경에서 3D 모델링을 통해 편리하게 데이터를 시각화할 수 있는 DottyAR(http://dottyar.com)은 쉽고 빠르게 증강현실 콘텐츠를 제작할 수 있도록 한다.

 

4) 증강현실을 통해 새로운 차원으로 진입한 과학 시각화

데이터 시각화의 한 분야인 과학 시각화(scientific visualization)는 시뮬레이션 데이터 등 복잡한 데이터를 쉽게 탐색할 수 있도록 그래픽 기술을 활용해 시각화하는 분야로서 의학이나 과학, 공학 분야에서 활용돼 왔다. 증강현실 기술의 보급으로 과학 시각화 분야가 새로운 차원으로 접어들고 있다. Insight Heart(http://www.insight-heart.com)는 AR 기반의 시각화를 활용해 의학 교육에 새로운 경험을 제공한다. 또한 AR 기술은 건축 시뮬레이션 분야에서도 활용도가 높은데, Smart Reality(http://smartreality.co)는 AR 기반의 BIM(Building Information Modeling) 모델링 기술을 제공한다. 이와 같이 학문적 영역에 집중됐던 과학 시각화가 AR 기술을 통해 실생활에 응용되는 사례가 점차 증가할 것으로 보인다.

 

[그림 6-5-8] 증강현실에서 시각화 기술 활용의 예

 

라. 인공지능을 위한, 인공지능에 의한, 인공지능의 시각화

 

1) 딥러닝의 발전으로 인한 고차원 데이터 시각화 기술의 재부상

인공지능 분야가 오랜 침체기를 지나 딥러닝 기술을 통해 화려하게 부활하고 있다. 머신러닝의 개념을 직관적으로 이해하기 위해 시각화를 이용하는 방법은 오랜 기간 사용돼 왔으나, 최근 딥러닝의 복잡한 개념을 이해하기 위해 시각화가 적극적으로 활용되고 있다. 딥러닝 프레임워크의 표준이 돼 가고 있는 텐서플로(Tensorflow)는 딥러닝의 이해와 디버깅 및 최적화를 돕기 위한 시각화 도구인 Tensorboard(https://www.tensorflow.org/get_started/graph_viz)를 제공한다. 딥러닝 등장 이후 머신러닝의 데이터 차원이 수백 개 이상으로 폭증하게 되면서, 고차원 데이터를 차원축소해 시각화하는 기술인 t-SNE(https://lvdmaaten.github.io/tsne)가 다시 주목받고 있다. 또한 딥러닝은 인간의 신경망을 모방해 만들어진 알고리즘으로, 딥러닝의 고차원 데이터 처리 과정을 3차원 시뮬레이션으로 시각화함으로써 딥러닝과 인간 두뇌의 작동 원리를 이해하는 데 기여할 수 있다. Neural Network 3D Simulation(https://youtu.be/3JQ3hYko51Y)은 이러한 시도의 좋은 예이다.

 

[그림 6-5-9] 인공지능 시각화의 예

 

2) 인공지능이 생성하는 데이터 시각화의 가능성

딥러닝 기술 중 최근 주목받고 있는 GAN(Generative Adversarial Networks)*은 다양한 분야에 적용된 연구가 쏟아지고 있다. Berkley AI Research(BAIR) Lab의 pix2pix(https://phillipi.github.io/pix2pix)*는 2D 이미지를 생성하는 방법을, MIT CSAIL의 3D GAN(http://3dgan.csail.mit.edu)**은 3D 모델링을 생성하는 방법을 각각 보여준다. 인공지능이 생성하는 시각화는 데이터의 입력 시점과 출력 시점, 데이터를 처리하는 방식과 시각화 방식을 결정하는 방식 등 모든 측면에서 기존의 데이터 시각화와는 전혀 다른 근본적인 패러다임의 변화를 가져올 가능성이 있다는 점에서 주목할 필요가 있다.

 

[그림 6-5-10] 3D GAN의 사례

* Ian J.Goodfellow,et al. (2014), Generative Adversarial Network, Advances in Neural Information Processing Systems 27(NIPS 2014)

 
3. 향후 전망

 

지금까지 데이터 시각화 기술의 동향에 대해 간략히 살펴보았다. 데이터 시각화는 컴퓨터공학, 통계학, 심리학, 인지공학부터 디자인까지 다양한 분야의 지식이 복합적으로 요구되는 분야로서, 기술의 발전과 사회적 변화에 영향을 받지 않을 수 없다. 데이터 시각화 분야는 수십 년 이상 쓰여온 오래된 기술과 가장 최신의 기술이 공존하면서 발전하고 있다. 데이터 시각화 기술은 전통적인 통계적 데이터의 시각화뿐 아니라, 웹 환경에 적합하고 인터랙티브한 구현이 가능한 기술, 그리고 사용자 친화적이고 직관적인 사용성이 높은 기술, 세분화된 전문 분야에 특화된 기술에 대한 선호가 올라가는 경향을 보이고 있다. 또한 VR 기술은 데이터 시각화가 구현되는 새로운 플랫폼으로서 가상의 환경 속에서 데이터를 직접 경험할 수 있는 몰입형 데이터 시각화의 중요성이 강조되고 있다. 또한 AR 기술은 보다 정교한 의학 교육이나 공학 시뮬레이션에 활용되고 있다.

앞으로 데이터 시각화뿐 아니라 거의 모든 분야가 인공지능의 영향으로부터 자유롭지 못할 것이다. 복잡한 고차원 정보를 시각화하는 기술은 딥러닝의 작동 원리를 이해하고 편리하게 구현하도록 하는 데 많은 기여를 하고 있다. 나아가 인공지능이 스스로 의미 있는 정보를 생성하는 기술이 개발돼 연구 결과가 쏟아지고 있으며, 인공지능은 지금까지 인간의 고유한 영역으로 여겨진 창작의 영역에 도전하고 있다. 인공지능은 전통적인 데이터 시각화 분야의 생산성을 개선할 뿐 아니라, 데이터 시각화의 프로세스와 방법론 그리고 결과물에까지 근본적인 변화를 가져올 것으로 전망된다.

* Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros (2016), Image-to-Image Translation with Conditional Adversarial Networks, arXiv:1611.07004 [cs.CV]

 

 

 

 

이 글은 한국데이터진흥원이 발간한 '2017년도 데이터산업 백서'에 기고한 내용을 전재했습니다. 원문보기>

 

* 데이터산업 백서 : 한국데이터진흥원은 국내외 데이터산업 관련 동향을 종합적으로 정리, 해설한 데이터산업 백서를 발간하고 있습니다. 96년 창간호를 시작으로 매년 국내외 데이터산업 동향 및 관련기술 정책 등 최신 이슈를 한 눈에 파악할 수 있는 국내 유일의 데이터 산업 전문자료 입니다.

 

[차례]

발간사,추천사,목차,그림으로 보는 데이터산업 동향, 2018 데이터산업 이슈

제1부 데이터산업의 미래

제2부 데이터산업 시장 현황

제3부 데이터 서비스 동향

제4부 데이터 솔루션 동향

제5부 데이터 구축 및 컨설팅 동향

제6부 데이터 기술 동향

제7부 데이터산업 정책 동향

 

 

Share on Facebook
Share on Twitter