요약

등장배경

전 세계 디지털 정보량 증가 추이

개념

일반적인 데이터베이스 규모를 넘어선 매우 큰 규모의 데이터로부터 가치를 추출하고 결과를 분석하는 기술

학자, 기관에 따른 정의

  • 가트너: 향상된 시사점과 더 나은 의사결정을 위해 사용되는 정보자산으로, 비용 효율이 높고 혁선적이며 대용량 고속, 다양성의 특성을 갖는다.
  • 맥킨지: 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터를 말한다.
  • IDC: 다양한 종류의 대규모 데이터에서 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.

데이터와 빅데이터의 차이점

구분 데이터 빅데이터
데이터 양 테라바이트 테라바이트-제타바이트
유형 정형 데이터 정형 데이터 및 비정형 데이터
처리과정 단순한 원인, 결과 관계를 규명하는데 중점 복잡하고 분산처리기술이 필요, 상관관계를 규명하는데 중점

빅데이터 이해

1
2
3
4
기존의 데이터와는 규모, 다양성, 처리속도 측면에서 차이점이 있다.
기업이 축적한 데이터양의 증가와 학계 관심이 많아지면서 발전하였다.
디지털기술, 저장장치 가격 하락과 클라우드 컴퓨팅 기술의 발전이 결합되면서 경제성을 확보하였다.
차세대 혁신의 에너지원과 필요한 부분을 확대해서 볼 수 있는 렌즈 역할 및 개발자들에게 다양한 사업기회를 줄 수 있는 플랫폼 역할을 기대할 수 있다.

빅데이터의 정의

일반적인 데이터베이스 소프트웨어로서 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
(데이터 규모에 중점)

빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
(데이터 처리기술에 중점)

대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이며, 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
(사회, 정치, 경제, 문화적 변화를 알아내기 위한 포괄적 의미)

빅데이터에 의한 근본적인 변화에 의한 중요도

전수조사 > 표본조사
데이터의 양 > 데이터의 질
상관관계 > 이론적 인과관계

빅데이터의 가치와 영향

가치 산정의 어려움
반복적으로 재사용되고, 데이터가 다양하게 조합되어 사용되기때문에 수집 원가 산정이 어렵다.

  • 기업혁신: 경쟁력 강화, 생산성 향상
  • 정부혁신: 미래 대응 수단 제공, 환경 탐색과 상황 분석
  • 소비자, 국민: 생활 전반의 스마트화

빅데이터의 영향

생활 전반의 스마트화
저렴한 비용으로 맞춤형 서비스 제공 가능

  • 기업: 혁신, 경쟁력 재고, 생산성 향상
  • 정부: 환경 탐색, 상황 분석, 미래 대응
  • 개인: 다양한 목적에 따라 활용

빅데이터에 변화 및 효과

  • 데이터 변화: 규모, 형태, 속도
  • 기술 변화: 새로운 데이터 처리, 저장, 분석기술 및 아키텍처, 클라우드 컴퓨팅 활용
  • 인재 조직 변화 : 데이터사이언티스트 같은 새로운 인재 필요, 데이터 중심 조직
    기존 방식으로 얻을 수 없는 통찰 및 가치 창출
    사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도

출현배경

데이터를 처리하는 기술을 발전으로 패러다임 전환

  • 산업계: 고객 데이터 축적 (양질 전환 변화 - 경영, 경쟁 전략수집에 사용자 및 소비자 형태 정보분석 활용)
  • 학계: 거대 데이터 활용 확산 (게놈 프로젝트 등 활용 사례 증가)
  • 기술계: 관련 기술발전, 디지털화, 저장기술, 인터넷 보급, 모바일혁명, 클라우드 컴퓨팅

빅데이터의 기능

차세대 산업 혁신 필요 요소
산업혁명의 석탄, 철 (제조업과 서비스업에서 생산서의 획기적 개선 - 사회, 경제, 문화, 생활에 획기적 변화 기대)
21세기 원유 (에너지원과 같이 필요한 정보 제공 - 새로운 산업 창출 가능)
렌즈 (동식물의 메키너즘 해석 - 인류 건강에 공헌, 구글의 Ngram Viewer)
플랫폼 (공용 활용의 목적으로 구축된 유무형의 구조물, 다양한 사업자들이 사용하는 플랫폼의 빅데이터를 API 형태로 제공)

빅데이터의 특성

  • 데이터의 규모: 데이터의 크기가 일정 수준 이상이어야 의미있는 데이터를 얻을 수 있음.
  • 데이터의 변화 속도: 빅데이터는 잘 가공된 데이터가 아닌 가공되지 않고 계속해서 변하는 원시 데이터에서 가치를 찾음.
  • 데이터의 다양성: 빅데이터가 다루는 데이터는 데이터가 만들어내는 정보의 가치가 사실에 가깝고 사람들이 체감하고 공감하는 내용에 가까움.

빅데이터 처리 프로세스와 분석기술

  1. 텍스트 마이닝
  2. 가시화
  3. 시멘틱스
  4. 통계
  5. 기계학습
  6. 자연어 처리
  7. 정보검색
  8. 클라우드
  9. 크롤링

비즈니스 모델 (7가지 분석기술)

  • 연관규칙학습: 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
  • 유형분석: 사용자가 특정집단에 속하는가 판단, 기존자료를 기반을 둔 학습용 분류틀이 필요하다.
  • 유전알고리즘: 응급실에 의사배치 문제, 최적화가 필요한 문제해결을 자연선택
  • 기계학습(머신러닝): 훈련 데이터로부터 학습해서 알려진 특성을 활용하여 예측하는 업무에 적용
  • 회귀분석: 구매자의 나이에 따른 차량선택, 만족도에 따른 충성도, 독립 변수를 조작하여 종속 변수 변화에 따른 상관 관계 분석
  • 감성분석: 글을 쓴 사람의 감정 분석, 소셜 미디어에 나타난 의견을 바탕으로 고객 요구 판단
  • 소셜 네트워크: 특정인과 다른사람의 촌수 계산, 영향력 분석, 오피니언 리더의 영향력 분석

위기요인

  • 사생활침해: 일상생활을 감시할 수 있는 시스템 구축 가능
  • 책임 원칙 훼손: 예측의 정확도가 높아지면서 분석대상이 되는 사람이 예측 알고리즘에 영향을 받을 수 있음
  • 데이터 오용: 빅데이터 활용자의 맹신으로 문제발생 소지가 높음

통제방안

  • 동의-책임으로: 개인정보 제공자의 동의보다 개인정보 사용자의 책임으로 해결
  • 결과기반 책임원칙 고수: 성향에 따라 처벌하는 것이 아니라 행동결과를 보고 처벌
  • 알고리즘 접근허용: 알고리즘 접근 외에 객관적 인증방안도입, 알고리즘 부당성을 반증할 수 있는 방법 명시 필요

본질적인 변화

4가지 측면의 본질적인 변화

  1. 첫번째 변화: 사전 처리 < 사후 처리 (가치 있을 것 같은 특정 정보만 수집, 가능한 많은 데이터 수집, 정보 획득)
  2. 두번째 변화: 표본 조사 < 전수 조사 (처리비용의 감소)
  3. 세번쨰 변화: 질 < 양 (데이터가 많아질 때마다 오류 정보 보다 양질의 정보가 많기게 좋은 양산이 가능하다.)
  4. 네번째 변화: 인과관계 < 상관관계 (샘플링에 의한 인과관계로 특정한 원리를 설명하기보단 전수 조사에 의한 상관관계 분석으로 수익창출이 가능한 신속한 의사결정이 가능하다. 데이터를 기반한 상관관계로 특정 현상 발생 가능성을 발견하고, 상응하는 행동을 하도록 추천하는 방법으로 발전했다.)

미래의 빅데이터

  • 데이터: 모든 것의 데이터화
  • 기술: 진화하는 알고리즘, 인공지능
  • 인력: 데이터사이언티스트