빅데이터의 이해
1. 빅데이터 특징(3V)
① Volume 크기 : 생성되는 모든 데이터 수집, 데이터양의 증가
② Variety 다양성 : 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형 데이터를 분석③ Velocity 속도 : 데이터의 생성속도 및 처리 속도 증가
2. 빅데이터 출현 배경
○ 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미
▶산업계 : 고객 데이터의 증가 및 각종 유형의 사건 데이터 증가, 양질 전환 법칙으로 데이터 양이 많을수록 이익으로 연결된다.
▶학계 : 컴퓨터 공학, 인공지능학과 같이 데이터를 다루는 학문 증가
▶기술발전 : 데이터를 다루기 위한 기술 발전으로 클라우드 컴퓨팅 활용, 디지털화, 새로운 데이터 처리/저장/분석 기술 및 아키텍처
▶인재, 조직변화 : 데이터 중심 조직/데이터사이언티스트 요구
3. 빅데이터의 기능
○
산업혁명의 석탄과 철 : 차세대 산업으로 넘어가기 위한 밑거름 제공, 서비스 분야의 생산성을 획기적으로 끌어올렸다.
○
21세기 원유 : 현재사회의 에너지원과 같이 새로운 시대의 에너지원 제공, 경제 성장에 필요한 정보를 제공함으로써 생산성을 향상
○
렌즈 : 렌즈로 미생물을 발견한 것과 같이 기존에 모르던 새로운 가치 발견 (구글 Ngram Viewer)
○ 플랫폼
: 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망, 공동 활용 목적으로 구축된 유형물로 다양한 서비스가 창출될 수 있도록 함 (페이스북 등)
4. 빅데이터에 의한 변화
○
사전처리에서 사후처리로 : 불필요한 데이터조차 버리지 않고 다양한 방법으로 조합하여 숨은 가치를 찾을 수 있다.
○
표본조사에서 전수조사로 : 조사 대상 일부분이 아닌 전체를 조사할 수 있다.
○
질보다 양 : 품질 낮은 데이터가 포함된다 하더라도 데이터 양이 많다면 분석의 정확도가 높아질 수 있다.
○
인과관계에서 상관관계로 : 상관관계로부터 찾아낼 수 있는 가치가 발생되는 현상이 포착됨에 따라 상관관계가 중시되기 시작
5. 빅데이터 가치 산정의 어려움
○
데이터 활용방식 : 데이터의 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제 어디서 누가 사용했는지 알 수 없어 무한적인 재생산 및 재배포 가능
○
가치창출방식 : 주어진 데이터가 미래에 얼마나 큰 가치를 가져올지 예측할 수 없다.
○
분석기술발전 : 불필요한 데이터들이 새로운 분석기법에 의해 높은 가치를 가질 수 있다.
6. 빅데이터 활용에 필요한 3요소
○ 데이터, 기술, 인력
7. 데이터웨어하우스(DW)
○ 기업 내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간
○
재무, 생산, 운영 등과 같이 특정조직의 특정 업무분야에 초점을 맞춰 구축된다.
○ ETL
: 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후 DW에 정보를 적재한다.
○
DW의 4가지 특징 : 주제지향성, 통합성, 비휘발성, 시계열
비즈니스 모델
1. 비즈니스 모델 캔버스
2. 빅데이터 활용기법
○ 연관규칙학습 : 어떤 변수 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
(ex. 마트에서 상관관계가 높은 상품을 함께 진열 - 우유 & 기저귀)
○ 유형분석 : 어떤 특성을 가진 집단에 속하는가와 같이 새로운 데이터가 속할 범주를 찾아내는 방법
(ex. 온라인 수강생들의 특성에 따라 분류)
○ 유전 알고리즘 : 선택, 변이, 교차, 대치 등의 연산을 통해 최적화가 필요한 문제 해결
(ex. 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가)
○ 기계학습 : 훈련 데이터로부터 학습한 특성을 활용하여 컴퓨터가 학습하고 미래 예측
(ex. 넷플릭스 영화 추천)
○ 회귀분석 : 독립변수에 따라 종속변수가 수치적으로 어떻게 변하는지 파악하는 방법
(ex. 구매자의 나이가 구매 차량 타입에 어떤 영향을 미치는가?)
○ 감정분석 : 특정 주제에 대한 글을 분석하여 글쓴이의 감정(긍정/부정)을 분석하는 방법
(ex. 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것 찾기)
○ 소셜 네트워크 분석 : 사회 관계망 분석이라고 하며, 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력 있는 사람을 파악하는 방법
(ex. 기업의 효율적인 마케팅, 범죄의 공범 탐색)
위기요인과 통제방안
1. 빅데이터 시대의 위기요인과 통제요인
○ 사생활 침해
▶위기요인 : 정보수집센서들의 수가 늘어나고 있고, 특정데이터가 본래 목적 외에 가공 돼 2차, 3차적 목적으로 활용될 가능성이 증가하면서 사생활 침해를 넘어 사회 경제적 위험으로 변형
▶통제요인 : 동의에서 책임으로 개인정보 활용에 대해 개인이 매번 동의하는 것은 경제적으로 매우 비효율적이다.
개인정보 사용자에게 책임
지음으로써 개인정보 사용 주체가 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대
○ 책임 원칙의 훼손
▶위기요인 : 예측기술 발전으로 정확도가 증가한만큼 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다. 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질할 가능성이 커 민주주의 사회 원칙을 크게 훼손할 수 있다. (ex. 범죄예측 프로그램)
▶통제요인 : 결과 기반 책임 원칙 강화
○ 데이터의 오용▶위기요인 : 일어난 일에 대한 데이터에 의존한다. 그것을 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다.▶통제요인 : 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안 도입 필요성 제시, 이로 인해 알고리즈미스트 역할 요구
'ADsP 자격증 공부 > 1과목' 카테고리의 다른 글
데이터의 이해 (0) | 2024.07.04 |
---|---|
ADsP 1과목 공부 : 데이터 이해 - 전략 인사이트와 데이터사이언스 공부 (0) | 2024.07.04 |