요약
등장배경
전 세계 디지털 정보량 증가 추이
개념
일반적인 데이터베이스 규모를 넘어선 매우 큰 규모의 데이터로부터 가치를 추출하고 결과를 분석하는 기술
학자, 기관에 따른 정의
- 가트너: 향상된 시사점과 더 나은 의사결정을 위해 사용되는 정보자산으로, 비용 효율이 높고 혁선적이며 대용량 고속, 다양성의 특성을 갖는다.
- 맥킨지: 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터를 말한다.
- IDC: 다양한 종류의 대규모 데이터에서 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
데이터와 빅데이터의 차이점
| 구분 | 데이터 | 빅데이터 |
|---|---|---|
| 데이터 양 | 테라바이트 | 테라바이트-제타바이트 |
| 유형 | 정형 데이터 | 정형 데이터 및 비정형 데이터 |
| 처리과정 | 단순한 원인, 결과 관계를 규명하는데 중점 | 복잡하고 분산처리기술이 필요, 상관관계를 규명하는데 중점 |
빅데이터 이해
1 | 기존의 데이터와는 규모, 다양성, 처리속도 측면에서 차이점이 있다. |
빅데이터의 정의
일반적인 데이터베이스 소프트웨어로서 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
(데이터 규모에 중점)
빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
(데이터 처리기술에 중점)
대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이며, 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
(사회, 정치, 경제, 문화적 변화를 알아내기 위한 포괄적 의미)
빅데이터에 의한 근본적인 변화에 의한 중요도
전수조사 > 표본조사
데이터의 양 > 데이터의 질
상관관계 > 이론적 인과관계
빅데이터의 가치와 영향
가치 산정의 어려움
반복적으로 재사용되고, 데이터가 다양하게 조합되어 사용되기때문에 수집 원가 산정이 어렵다.
- 기업혁신: 경쟁력 강화, 생산성 향상
- 정부혁신: 미래 대응 수단 제공, 환경 탐색과 상황 분석
- 소비자, 국민: 생활 전반의 스마트화
빅데이터의 영향
생활 전반의 스마트화
저렴한 비용으로 맞춤형 서비스 제공 가능
- 기업: 혁신, 경쟁력 재고, 생산성 향상
- 정부: 환경 탐색, 상황 분석, 미래 대응
- 개인: 다양한 목적에 따라 활용
빅데이터에 변화 및 효과
- 데이터 변화: 규모, 형태, 속도
- 기술 변화: 새로운 데이터 처리, 저장, 분석기술 및 아키텍처, 클라우드 컴퓨팅 활용
- 인재 조직 변화 : 데이터사이언티스트 같은 새로운 인재 필요, 데이터 중심 조직
기존 방식으로 얻을 수 없는 통찰 및 가치 창출
사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
출현배경
데이터를 처리하는 기술을 발전으로 패러다임 전환
- 산업계: 고객 데이터 축적 (양질 전환 변화 - 경영, 경쟁 전략수집에 사용자 및 소비자 형태 정보분석 활용)
- 학계: 거대 데이터 활용 확산 (게놈 프로젝트 등 활용 사례 증가)
- 기술계: 관련 기술발전, 디지털화, 저장기술, 인터넷 보급, 모바일혁명, 클라우드 컴퓨팅
빅데이터의 기능
차세대 산업 혁신 필요 요소
산업혁명의 석탄, 철 (제조업과 서비스업에서 생산서의 획기적 개선 - 사회, 경제, 문화, 생활에 획기적 변화 기대)
21세기 원유 (에너지원과 같이 필요한 정보 제공 - 새로운 산업 창출 가능)
렌즈 (동식물의 메키너즘 해석 - 인류 건강에 공헌, 구글의 Ngram Viewer)
플랫폼 (공용 활용의 목적으로 구축된 유무형의 구조물, 다양한 사업자들이 사용하는 플랫폼의 빅데이터를 API 형태로 제공)
빅데이터의 특성
- 데이터의 규모: 데이터의 크기가 일정 수준 이상이어야 의미있는 데이터를 얻을 수 있음.
- 데이터의 변화 속도: 빅데이터는 잘 가공된 데이터가 아닌 가공되지 않고 계속해서 변하는 원시 데이터에서 가치를 찾음.
- 데이터의 다양성: 빅데이터가 다루는 데이터는 데이터가 만들어내는 정보의 가치가 사실에 가깝고 사람들이 체감하고 공감하는 내용에 가까움.
빅데이터 처리 프로세스와 분석기술
- 텍스트 마이닝
- 가시화
- 시멘틱스
- 통계
- 기계학습
- 자연어 처리
- 정보검색
- 클라우드
- 크롤링
비즈니스 모델 (7가지 분석기술)
- 연관규칙학습: 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
- 유형분석: 사용자가 특정집단에 속하는가 판단, 기존자료를 기반을 둔 학습용 분류틀이 필요하다.
- 유전알고리즘: 응급실에 의사배치 문제, 최적화가 필요한 문제해결을 자연선택
- 기계학습(머신러닝): 훈련 데이터로부터 학습해서 알려진 특성을 활용하여 예측하는 업무에 적용
- 회귀분석: 구매자의 나이에 따른 차량선택, 만족도에 따른 충성도, 독립 변수를 조작하여 종속 변수 변화에 따른 상관 관계 분석
- 감성분석: 글을 쓴 사람의 감정 분석, 소셜 미디어에 나타난 의견을 바탕으로 고객 요구 판단
- 소셜 네트워크: 특정인과 다른사람의 촌수 계산, 영향력 분석, 오피니언 리더의 영향력 분석
위기요인
- 사생활침해: 일상생활을 감시할 수 있는 시스템 구축 가능
- 책임 원칙 훼손: 예측의 정확도가 높아지면서 분석대상이 되는 사람이 예측 알고리즘에 영향을 받을 수 있음
- 데이터 오용: 빅데이터 활용자의 맹신으로 문제발생 소지가 높음
통제방안
- 동의-책임으로: 개인정보 제공자의 동의보다 개인정보 사용자의 책임으로 해결
- 결과기반 책임원칙 고수: 성향에 따라 처벌하는 것이 아니라 행동결과를 보고 처벌
- 알고리즘 접근허용: 알고리즘 접근 외에 객관적 인증방안도입, 알고리즘 부당성을 반증할 수 있는 방법 명시 필요
본질적인 변화
4가지 측면의 본질적인 변화
- 첫번째 변화: 사전 처리 < 사후 처리 (가치 있을 것 같은 특정 정보만 수집, 가능한 많은 데이터 수집, 정보 획득)
- 두번째 변화: 표본 조사 < 전수 조사 (처리비용의 감소)
- 세번쨰 변화: 질 < 양 (데이터가 많아질 때마다 오류 정보 보다 양질의 정보가 많기게 좋은 양산이 가능하다.)
- 네번째 변화: 인과관계 < 상관관계 (샘플링에 의한 인과관계로 특정한 원리를 설명하기보단 전수 조사에 의한 상관관계 분석으로 수익창출이 가능한 신속한 의사결정이 가능하다. 데이터를 기반한 상관관계로 특정 현상 발생 가능성을 발견하고, 상응하는 행동을 하도록 추천하는 방법으로 발전했다.)
미래의 빅데이터
- 데이터: 모든 것의 데이터화
- 기술: 진화하는 알고리즘, 인공지능
- 인력: 데이터사이언티스트
구간추정
- 점추정은 모수가 특정한 값이라고 여김, 점추정을 보완하는 것이 구간추정
- 모수: 평균, 편차, 최빈치, 중앙치 등
- 현실적으로 특정값이 정확한가를 판단하기 어려움
- 모수의 참값이 존재할 것으로 추정되는 구간을 표본으로부터 구하여 추정하는 방법
- 일정한 크기의 신뢰수준으로 특정한 구간에 모수가 존재하고, 구해진 구간을 신뢰구간이라고 함
- 한 개의 모집단에서 같은 방법으로 동일 자료의 개수에 대한 확률표본을 많이 추출
- 각 확률분포마다 신뢰구간을 구함
- 이 많은 신뢰구간 중에서 95% 신뢰구간이 미지의 모수를 포함한다는 의미
- 한 개의 신뢰구간은 특정한 숫자로 표현되고, 모수도 미지의 특정한 값이므로 확률로 해석하기는 어려움
- 구간추정이라고 100% 신뢰하기는 어려움
- 일반적으로 점추정보다는 구간추정이 신뢰도가 높음
- 신뢰성을 높이기 위하여 되도록 구간을 넓게 잡는 것은 문제임
가설검정
통계적 가설검정
- 표본정보를 사용해서 가설의 합당성 여부를 판정하는 과정, 통계적 추측의 방법으로 모집단의 실제값이 얼마가 된다는 가설의 합당성을 판정하는 과정
- 통계적 가설: 하나의 특정 주장을 모수(수치값)를 이용해 나타낸 형태를 지정
- 종류: 귀무가설, 대립가설
- 단계: 유의 수준결정(귀무가설, 대립가설) > 검정 통계량의 설정 > 기각역(유의범위, 유의값)의 설정 > 검정 통계량 계산 > 통계적인 의사결정
- 추론통계: 현실적 제약 때문에 모집단에서 표본추출 된 표본을 활용하여 모집단의 특성(모수)을 추론하고, 추론된 결과가 신뢰성이 있는지를 판정하는 것
빅데이터의 관점에서의 모집단과 표본
- 현재 가지고 있는 데이터를 표본으로 설정
- 수집하지 못한 현실세계의 모든 데이터나 미래 수집된 데이터를 모집단으로 설정
관심영역
- 모집단에서 표본추출 된 표본이 모집단을 대표할 수 있는지 여부: 추출된 표본을 활용하여 모집단을 추정하기 때문에 표본이 모집단 특성을 잘 반영해야 함.
- 표본의 확률분포: 확률분포에 따라서 적용 방법이 다름, 표본수가 많아짐에 따라 정규분포에 가깝게 됨.
- 추정된 결과값이 신뢰성이 있는지, 추정된 결과를 활용할 수 있는지를 권장
귀무가설
- 일반적으로 맞는다고 가정하는 가설
- 영으로 돌아간다는 의미, 통계학에서 처음부터 버릴 것을 예상하는 가설
- 차이가 없거나 의마있는 차이가 없는 경우의 가설
- 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설
- 두 주장 중 하나를 참으로 놓고, 이 주장이 참인지 거짓인지를 판단(검증)함
- 참이라 검증하고 싶은 주장 외에 반대 주장을 참이라고 가정
- 반대 주장이 참이면 검증하고 싶은 주장은 버리고 반대 주장이 거짓이면 검증하고 싶은 주장이 맞게 됨
- 새롭게 맞는다고 증명하려는 가설
- 분석할 경우에 귀무가설, 대립가설은 이미 정해져 있음
표본분포
- 표본통계량이 분포되어 있는 형태로, 모집단으로부터 반복적으로 표본을 추출할 경우 이 통계량에 대한 분포를 말함.
- 표본통계량: 모집단에서 일정한 크기의 표본을 무작위로 추출하였을 경우 나타나는 통계량/표본조사에서 표본의 수치, 시간과 비용의 현실적인 문제로 전수조사보다는 표본조사를 선호한다.
- 확률계산: 정규분포
- 가설검정 활용: 카이제곱 분포, t분포, f분포/정규분포가 확률계산에 사용하는 반면 카이제곱 분포, t분포나 f분포는 가설검정에 사용한다.
정규분포
- 1733년 아브라암 드무아브르, 이항 분포의 n값이 클때 그 분포의 근사치 계산에서 처음 소개되었다.
- 1809년 카를 프리드리히 가우스, 실험오차가 정규분포를 따를 경우의 최소제곱법이론의 타당성을 입증하였다.
- 180년 라플라스, 실험오차 분석할 때 정규분포 활용하여 장당화하였다.
개념
- 정규분포, 가우스 분포로 연속확률분포의 하나
- 수집된 자료의 근사화에 활용한다. 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있다.
- 분포곡선의 모양은 평균, 표준편차로 결정한다.
- 표준정규분포란 평균이 0이고 표준편차가 1인 정규분포N(0,1)이다.
성질
- 정규분포에서는 기대값, 최빈값, 중앙값이 U로 동일하다. 분산은 시그마^2
- 정규분포는 절대 근사함.
- 평균과 표준편차가 주어질 경우 엔트로피가 최대인 분포
- 좌우 대칭으로 하나의 꼭지를 가짐
- 중앙치에 사건들이 모여있고, 갈수록 x축에 무한히 접근하지만, x에 닿지 않은 성질이 있음
카이제곱 분포
- K개의 서로 다른 표준정규분포의 확률변수의 제곱합으로 얻어지는 이론적인 분포
- K는 자유도이며 카이제곱 분포의 매개변수가 됨
- 신뢰구간이나 가설검정, 적합도 검정, 동질성 검정, 독립성 검정에 활용
- 모집단을 분석하는데 질적 변화를 양적 변화로 전환하는게 유리, A가 B보다 크다. B는 A의 50%, A는 B의 2배
- 비율과 무게 중심은 동일한 개념으로 평균값과 동일, 표본분포의 경우 중심위치가 평균값임
- 분산이 퍼져있는 정도를 분포로 나타낸 것.
- 분산: 데이터가 중심에서 흩어져 있는 정도, 평균값으로부터 흩어지는 정도. 분산의 제곱값이기 때문에
성질
- 제곱값이기 때문에 +값만 존재
- 한쪽 값만 많기 때문에 비대칭 분포의 모습
- 0에 가까울수록 값이 많고, 0에 멀어질수록 값이 적음.
t분포
- 표본수가 적은 경우 신뢰도 정의에 사용
- 연속확률분포로 자유도가 커질수록 정규분포와 비슷
- 표본의수가 적을 경우 신뢰도에 문제가 발생할 경우 t분포 사용
- 분산을 추정하고 검정할 때 사용하는 분포
f분포
- 분산을 추정하고 검정할 때 사용하는 분포
- 카이제곱 분포는 모집단이 하나일 때 사용
- 모집단이 두 집단일 경우 사용
- 두 모집단의 분산의 치우침(분산)이 같은지를 판단, 비교할 때 사용
확률
- 통계학은 모든 과학적 분석방법의 기본
- 빅데이터 분석의 목표는 의사결정 지원 지표 도출, 최적화 수행, 비즈니스 인텔리전스나 데이터마이닝 등과 같은 알고리즘 자동화 수행
- 어떤 사건이 일어날 것인지 또는 일어났는지에 표현방법
- 같은 원인에서 특정한 결과가 나타나는 비율
- 수학, 통계학, 회계, 도박, 과학과 철학에서 어떤 잠재적 사건이 일어날 가능성과 복잡한 시스템의 구조에 대한 해석 방법
발생빈도주의
- 고전 확률이론에서 가능한 확률 공산에서 원하는 경우의 수의 비
고전적 확률(수학적 확률)
- 어떤 시행의 결과로 나타날 수 있는 가능한 결과의 수
- 각 결과들이 나타날 가능성은 동일하다는 가정
- 동일한 각 결과의 확률의 1/X
통계적 확률
- 동일한 조건에서 같은 실험을 N번 반복
- 사건 A의 발생 빈도를 조사
- 사건의 A의 발생 확률
- N이 커질수록 A의 빈도는 P(a)로 접근
확률공간
- 전체 측정값의 합이 1인 공간에서의 확률현상에 대한 발생 빈도값을 확률로 나타냄
- 표본공간: 확률공간의 점들의 집합, 출현 가능한 모든 결과들의 모임을 표본공간이라고 함
- 사건 S(Event): 확률공간의 측정 집한인 S∊F, 측정 가능한 점들
- 여사건: 어떤 사건에 대하여 그 사건이 일어나지 않는 사건
- 곱사건: 한 집합과 교칩합의 사건
- 공집합과 전체 집합 사건: 불가능한 사건(공집합)과 필연적인 사건(전체 집합)이 존재
- 독립사건: 두 사건이 서로가 발생에 영향을 미치지 않는 사건
표본공간
- 실험의 결과값들 하나 하나를 모은 것
- 보통 심볼 S로 표시
- 전사상: 어떤 시행에서 일어날 수 있는 모든 결과의 모임, 통계학에서 표본공간이라 함.
- 표본공간을 S, 조사대상이 된 집단의 총합을 모집단 𝛺로 표현
- 실험 또는 임의 시도의 몯느 가능한 산출의 모음
- 표본공간에서의 임의 부분을 사건
- 단 하나의 요소를 갖는 표본공간의 부분집합을 근원사건
확률실험
- 3가지 조건을 만족해야 확률시행이라 함
- 어떤 실험을 통해 나타나는 결과를 알지 못함
- 결과를 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음
- 동일한 실험을 몇번이고 반복할 수 있음
확률분포
통계량
- 모수와 통계량
- 그래프는 전체적인 자료의 형태를 파악하기 위해 사용(시각화)
- 숫자는 전체 자료 속에 숨어있는 특성 파악에 활용
- 자료가 많을 경우 전체적인 모습을 파악하기 어려움, 이러한 경우 시각화 단계를 활용하여 분석
- 최대값과 최소값
- 크기 순으로 나열하였을 경우 가장 큰값과 작은값을 말함
- 가장 큰값이 최대값, 가장 작은값이 최소값
- 평균값과 중앙값
- 자료의 중심은 자료들의 관계에서 중심에 위치하는 것
- 평균: 무게를 고려한 것
- 중앙값: 순서상 중심
확률변수
- 확률적인 과정에 따라 값이 결정되는 변수
- 확률공간에서 사건이 발생하는 다른 공간으로 정의된 함수
- 확률변수가 특정한 값을 가질 확률을 나타내는 함수
- 확률변수가 어떤 종류의 값을 가지는가에 따라서 이산확률분포와 연속확률분포 중 하나에 속함
- 이산확률변수가 가지는 확률변수
- 이산확률변수라는 말은 확률변수가 가질 수 있는 값의 개수가 여러 개 있다는 의미
- 확률질량함수를 통하여 표현 가능, 누적 분포 함수로 표현할 경우 그 함수는 비약적 불연속으로만 증가
- 확률밀도함수를 이용해 분포를 표현할 수 있는 경우
- 연속확률분포를 가지는 확률변수는 연속확률변수라 함
- 가우스분포는 연속확률분포 중 하나이다.
- 평균과 표준편차로 모양 결정
- 수집된 자료의 분포 근사화에 사용, 확률변수들의 평균은 정규분포에 가까움
중심극한정리
- 동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 의미
- 수학자 피에르시몽 라플라스는 1774년에서 1786년 사이의 일련의 논문에서 이러한 정리의 발견과 증명을 시도
- 표본추출을 무작위로 많이 할수록 정규분포에 수렵한다는 의미
- 대부분 통계는 정규분포함수를 활용
- 어떤 모집단이 정규분포라는 가설이 성립되면 다양한 분석법을 활용 가능함
- 평균이 u이고 분산이 𝛼^2인 모집단으로부터 추출한 크기가 n인 확률표본의 표본평균 x
통계학과 인과관계
- 인과관계: 원인과 결과의 관계
- 인과, 인과율 또는 인과성
- 하나의 사건이 다른사건을 일으킬 경우 둘의 관계를 인과관계라고 함
상관관계
- 이것과 저것과 관계가 있음/없음
- 어떤 변수가 증가할 때 다른 변수가 증가하거나 감소함
- 체중과 신장
- 나이가 젊을수록 보험료가 비쌈
- 인중이 길면 장수
인과관계 성립 조건
- 원인이 결과보다 시간적으로 앞서야 함
- 원인과 결과는 관련이 있어야 함
- 결과는 원인이 되는 변수만으로 설명이 가능, 다른 변수에 의한 설명은 제거되어야 함
- 현실에서는 두 변수를 조사할 경우 두 변수간의 관계가 없는 경우에도 조그마한 상과관계는 있는 경우가 많음
인과관계 분석 유의점
- 통계 지표(모수)를 명확하게 이해하기
- 데이터를 점이 아닌 구간으로 이해하기
- 어떤 값을 분석하기 위하여 정리해야하는가?
활용
- 성과지표와 원인변수: 성과지표(아웃컴, 결과변수, 목적변수, 종속변수, 외적기준) 최종적으로 조절하고 싶은 결과
- 설명 변수(원인변수): 성과지표를 영향을 미칠 수 있거나 차이를 설명할 수 있는 요인
- 분석과정: 인과관계가 너무 당연한 것이어서는 안됨
점추정
분포를 알지 못하는 상황에서 가장 근사한 값을 구하는 것
모수의 값을 한 값으로 추측하는 것
표본으로 계산된 값으로 추출되는 표본에 따라 오류가 많음
통계적 방법론으로 구하고 싶은 값은 모집단의 확률분포임
모수(Parameter): 모집단의 확률분포를 나타내는 특정값
모집단으로부터 추출된 표본을 이용하여 모수들에 대한 통계적 추론 진행
통계적 추론은 추정과 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것임.
입력된 자료가 불완전, 불확실할 경우에도 사용할 수 있는 계산된 결과의 근사치
추정량: 표본값으로부터 모수값을 추정하는 방법
추정이론: 측정 또는 관찰된 자료로부터 모수값을 측정하는 것
신호처리: 잡음을 포함한 측정신호에서 원신호에 대한 근사값을 찾는 것
에측, 예견
- 충분한 분량이 관측되지 않은 것에 대한 추정
추측 통계학
- 표본으로부터 특성을 관찰하여 모집단의 특성을 유추하는 통계학
- 실제 상황에서는 모집단의 특성을 모르는 것이 대부분이다.
- 표본에서 구한 통계량을 활용하여 모수 추정이 필요하다.
- 모수에 대한 추측 이론이 추정과 가설검정임
추정
- 모집단으로부터 추출된 표본으로부터 특성을 파악하여 모수를 유추하는 것
- 점추정, 구간추정
가설검정
- 모수에 대한 가설을 수립하고 이를 근거로 어떤 가설을 선택할 것인지 통계적으로 결정하는 것
추정량
- 모수를 알기 위하여 표본으로부터 관찰된 값으로 계산되는 표본의 통계량
- 모집단의 평균과 분산을 추정하는 추정량: 표본평균, 표본분산
- 좋은 추정량: 하나의 모수에 대하여 여러 추정량을 도출할 수 있으나 모수를 가장 잘 추정할 수 있는 추정량 사용이 중요. 평균 분산 비율이 좋은 추정량 중의 하나임
- 불편성: 추정량의 기본 성질로 한쪽으로 치우치지 않음을 의미, 추정량의 기대값이 모수와 같음을 의미
유효성
- 모수에 대한 불편 추정량은 다수 존재하는데 이중 가장 좋은 추정량을 결정하는 성질
- 모집단의 추정량은 산출 평균, 중앙치, 최빈치 등 여러 개 존재하는데, 이중 어떤 것을 추정치로 할 것인가의 문제
- 통계량의 확률분포를 이용, 표준오차가 가장 적은 통계량이 모평균에 가깝다는 점을 이용
일치성
- 표본의 크기와 관계있는 추정량의 성질을 만족하는 추정량
- 일치 추정량은 표본의 크기가 커짐에 따라서 추정량의 추정치가 모수와 확률적으로 같아짐