빅데이터 분석 기법  1015
 admin  2014-12-26 11:30:06.0

빅데이터(Big Data)
빅데이터는 기존의 방식으로는 저장, 관리, 분석이 어려울 정도로 규모가 크고 순환 속도가 빠르며, 형식이 다양한 데이터 또는 이러한 데이터를 분석하는 방법을 통칭하는 말로써 초기에는 수십~수천 테라바이트에 달하는 방대한 양의 데이터 집합 자체를 지칭하는 말이었으나, 점차 관련 도구, 플랫폼, 분석기법까지 포괄하는 용어로 변화하고 있다. 이러한 데이터를 규정하는 요소로는 거대한 크기(Volume), 다양한 형태(Variety), 빠른 생성유통이용 속도(Velocity)가 있다.

빅데이터 분석의 등장 배경
기존의 데이터 분석은 대부분 기업 활동과 관련이 있는 정형화된 내부 정보에 집중하였지만 기존의 정형데이터로는 파악하기 어려운 환경 변화와 소비자의 니즈를 적시에 확인 및 활용하기 위해서 최근에는 웹사이트 방문 기록, 온라인 검색통계, 소셜미디어 소통 기록 등의 비정형데이터까지 분석에 활용하게 되었다.
이는 기존의 경영정보 분석과 비교하였을 때 구조화 수준은 떨어지면서 규모면 에서는 방대한 데이터를 다뤄야 하므로 진보된 분석 기술과 통계적 기법 필요하게 된다.




빅데이터 분석 기술
빅데이터에 관련된 기술은 주로 분석 기술과 관련돼 있다고 할 수가 있다. 기존의 컴퓨팅 방식으로 빅데이터를 처리할 경우 시간과 비용이 엄청나게 증가하기 때문에 의미 있는 정보를 실시간으로 추출하고 해석하기 위한 기술이 필요하다
이와 같은 빅데이터를 분석하기 위한 기반 기술로서 Hadoop, R 등이 있다.

빅데이터 수집 및 저장 기술인 Hadoop은 오픈 소스 기반 클라우드 컴퓨팅 분산처리 기술 프로젝트 이름으로, 현재 정형/비정형 데이터 분석에 가장 선호되는 솔루션이라고 할수 있다. 구글의 빅데이터 처리 하부 시스템인 GFS(Google File System)를 본 따서 구현한 것으로 주요 구성 요소로는 하둡 분산 파일 시스템(HDFS), NoSQL 형태의 Hbase, MapReduce가 포함된다.

Hbase는 데이터 저장에 있 확장성을 위해 단지 노드만 추가하면 선형적으로 얼마든지 확장할 수 있는 구조를 제공한다. 관계형 데이터베이스가 아니므로 SQL(Structured Query Language)도 지원하지는 않지만 실시간으로 쏟아지는 정형/비정형의 대용량 빅데이터 처리를 위해서 RDBMS가 할수 없는 많은 처리를 할수 있게 된다.

맵리듀스(MapReduce)는 구글에서 개발한 대용량 데이터를 병렬로 처리하기 위한 소프트웨어 프레임워크이며 많은 저가의 장비로 페타 바이트 이상의 데이터를 처리하는 일종의 프로그래밍 모델이다. 함수형 프로그램밍에서 일반적으로 사용되는 Map과 Reduce라는 함수 기반으로 주로 구성된다.

빅데이터 시각화 기술로는 R을 예로 들수 있다. R은 데이터 분석용 객체지향 프로그래밍 언어인 S의 GNU버전이며, 1990년대 말 개발이 시작되어 2000년대 말에 구글, 아마존 등의 빅데이터 처리 회사들의 기분 분석플랫폼으로 사용되는 것이 알려지며 많은 기업들이 분석 업무에 도입하기 시작했다. 오픈소스로 개발된 R은 고성능의 빅데이터 처리에 유리하며 특히 분석결과에 대한 직관적인 통합을 부여할 수 있는 시각화 기능이 제공된다.


<작성자: ICC 박창현  051-200-6551, archehyun@naver.com>