본문 바로가기
ADsP 자격증 공부/1과목

ADsP 1과목 공부 : 데이터 이해 - 데이터의 가치와 미래

by 데이터 분석가가 되자 2024. 7. 2.
반응형
 

빅데이터의 이해

1. 빅데이터 특징(3V)

 

① Volume 크기 : 생성되는 모든 데이터 수집, 데이터양의 증가

② Variety 다양성 : 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형 데이터를 분석③ Velocity 속도 : 데이터의 생성속도 및 처리 속도 증가

 

2. 빅데이터 출현 배경

 

○ 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미   

▶산업계 : 고객 데이터의 증가 및 각종 유형의 사건 데이터 증가, 양질 전환 법칙으로 데이터 양이 많을수록 이익으로 연결된다.   

▶학계 : 컴퓨터 공학, 인공지능학과 같이 데이터를 다루는 학문 증가   

▶기술발전 : 데이터를 다루기 위한 기술 발전으로 클라우드 컴퓨팅 활용, 디지털화, 새로운 데이터 처리/저장/분석 기술 및 아키텍처   

▶인재, 조직변화 : 데이터 중심 조직/데이터사이언티스트 요구

 

3. 빅데이터의 기능

 

○ 

산업혁명의 석탄과 철 : 차세대 산업으로 넘어가기 위한 밑거름 제공, 서비스 분야의 생산성을 획기적으로 끌어올렸다.

○ 

21세기 원유 : 현재사회의 에너지원과 같이 새로운 시대의 에너지원 제공, 경제 성장에 필요한 정보를 제공함으로써 생산성을 향상

○ 

렌즈 : 렌즈로 미생물을 발견한 것과 같이 기존에 모르던 새로운 가치 발견 (구글 Ngram Viewer)

○ 플랫폼 

: 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망, 공동 활용 목적으로 구축된 유형물로 다양한 서비스가 창출될 수 있도록 함 (페이스북 등)

 

4. 빅데이터에 의한 변화

 

○ 

사전처리에서 사후처리로 : 불필요한 데이터조차 버리지 않고 다양한 방법으로 조합하여 숨은 가치를 찾을 수 있다.

표본조사에서 전수조사로 : 조사 대상 일부분이 아닌 전체를 조사할 수 있다.

질보다 양 : 품질 낮은 데이터가 포함된다 하더라도 데이터 양이 많다면 분석의 정확도가 높아질 수 있다.

인과관계에서 상관관계로 : 상관관계로부터 찾아낼 수 있는 가치가 발생되는 현상이 포착됨에 따라 상관관계가 중시되기 시작

 

5. 빅데이터 가치 산정의 어려움

 

○ 

데이터 활용방식 : 데이터의 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제 어디서 누가 사용했는지 알 수 없어 무한적인 재생산 및 재배포 가능

가치창출방식 : 주어진 데이터가 미래에 얼마나 큰 가치를 가져올지 예측할 수 없다.

분석기술발전 : 불필요한 데이터들이 새로운 분석기법에 의해 높은 가치를 가질 수 있다.

 

6. 빅데이터 활용에 필요한 3요소

○ 데이터, 기술, 인력

 

7. 데이터웨어하우스(DW)

 

○ 기업 내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간

○ 

재무, 생산, 운영 등과 같이 특정조직의 특정 업무분야에 초점을 맞춰 구축된다.

○ ETL

: 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후 DW에 정보를 적재한다.

DW의 4가지 특징 : 주제지향성, 통합성, 비휘발성, 시계열

 

 

비즈니스 모델

 

1. 비즈니스 모델 캔버스

2. 빅데이터 활용기법

 

○ 연관규칙학습 : 어떤 변수 간에 주목할 만한 상관관계가 있는지 찾아내는 방법

   (ex. 마트에서 상관관계가 높은 상품을 함께 진열 - 우유 & 기저귀)

○ 유형분석 : 어떤 특성을 가진 집단에 속하는가와 같이 새로운 데이터가 속할 범주를 찾아내는 방법

   (ex. 온라인 수강생들의 특성에 따라 분류)

○ 유전 알고리즘 : 선택, 변이, 교차, 대치 등의 연산을 통해 최적화가 필요한 문제 해결

   (ex. 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가)

○ 기계학습 : 훈련 데이터로부터 학습한 특성을 활용하여 컴퓨터가 학습하고 미래 예측

   (ex. 넷플릭스 영화 추천)

○ 회귀분석 : 독립변수에 따라 종속변수가 수치적으로 어떻게 변하는지 파악하는 방법

   (ex. 구매자의 나이가 구매 차량 타입에 어떤 영향을 미치는가?)

○ 감정분석 : 특정 주제에 대한 글을 분석하여 글쓴이의 감정(긍정/부정)을 분석하는 방법

   (ex. 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것 찾기)

○ 소셜 네트워크 분석 사회 관계망 분석이라고 하며, 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력 있는 사람을 파악하는 방법

   (ex. 기업의 효율적인 마케팅, 범죄의 공범 탐색)

 

 

 

위기요인과 통제방안

 

1. 빅데이터 시대의 위기요인과 통제요인

 

○ 사생활 침해

위기요인 : 정보수집센서들의 수가 늘어나고 있고, 특정데이터가 본래 목적 외에 가공 돼 2차, 3차적 목적으로 활용될 가능성이 증가하면서 사생활 침해를 넘어 사회 경제적 위험으로 변형

▶통제요인 : 동의에서 책임으로 개인정보 활용에 대해 개인이 매번 동의하는 것은 경제적으로 매우 비효율적이다.

개인정보 사용자에게 책임

 지음으로써 개인정보 사용 주체가 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대

 

○ 책임 원칙의 훼손

▶위기요인 : 예측기술 발전으로 정확도가 증가한만큼 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다. 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질할 가능성이 커 민주주의 사회 원칙을 크게 훼손할 수 있다. (ex. 범죄예측 프로그램)

▶통제요인 : 결과 기반 책임 원칙 강화

 

○ 데이터의 오용▶위기요인 : 일어난 일에 대한 데이터에 의존한다. 그것을 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다.▶통제요인 : 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안 도입 필요성 제시, 이로 인해 알고리즈미스트 역할 요구

 

 

 

반응형