빅데이터분석과 전략인사이트
1. 빅데이터 열풍과 전략적 인사이트
□ 빅데이터 분석은 데이터에서 가치, 즉 통찰을 끌어내는 것이 성과 창출 관련
- 데이터 최적화 능력이 최고의 가치를 창출하는 것은 아니고 가치에 적합한 분석이 중요
□ 일차적 분석을 통해 해당부서, 업무영역 효과를 얻을 수 있지만 일차적인 분석은 태생적으로 업계 내부의 문제에만
처점을 두고 있다. 전략적 인사이트, 가치 기반을 위해 인구/경제/고객니즈 변화를 고려해야 한다.
즉, 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려해야 한다.
□ 데이터 분석은 대상을 모델범위 외 요인들을 판단하게 되면 분석 모델의 정확성에 위험을 동반한다.
2. 데이터사이언스/데이터마이닝/통계학
□ 데이터사이언스 : 데이터로부터 의미있는 정보를 추출한다.
□ 통계학이 정형화된 실험 데이터를 분석대상으로 하는 것에 비해, 데이터사이언스는 정형/비정형을 막론하고
다양한 유형의 데이터를 대상으로 총체적 접근법을 사용한다.
□ 데이터 마이닝은 주로 분석에 초점을 두나, 데이터사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄한다.
□ 데이터사이언스란 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문이다.
3. 데이터사이언스 핵심 구성요소
□ 수학/통계학 분석적 지식 : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습 등
□ IT지식 : 프로그래밍, 데이터 엔지니어링 등
□ 비즈니스지식 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
데이터분석 역량
1. 데이터사이언티스트 요구역량
□ 하드스킬(이과적) : 빅데이터에 대한 이론적 지식(관련 기법에 대한 이해와 방법론 습득), 분석 기술에 대한 숙련(최적의 분석 설계 및 노하우 축적)
□ 소프트스킬(문과적) : 통찰력 있는 분석(창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달 (스토리텔링, 시각화)
다분야간 협력(커뮤니케이션)
2. 전략적 인사이트 도출을 위한 인문학
□ 단순 세계화에서 복잡한 세계로의 변화
빅데이터분석과 전략인사이트
1. 빅데이터 열풍과 전략적 인
□ 빅데이터 분석은 데이터에서 가치, 즉 통찰을 끌어내는 것이 성과 창출
- 데이터 최적화 능력이 최고의 가치를 창출하는 것은 아니고 가치에 적합한 분석이
□ 일차적 분석을 통해 해당부서, 업무영역 효과를 얻을 수 있지만 일차적인 분석은 태생적으로 업계 내부의 문제
처점을 두고 있다. 전략적 인사이트, 가치 기반을 위해 인구/경제/고객니즈 변화를 고려해야 한
즉, 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려해야 한
□ 데이터 분석은 대상을 모델범위 외 요인들을 판단하게 되면 분석 모델의 정확성에 위험을 동반한
2. 데이터사이언스/데이터마이닝
□ 데이터사이언스 : 데이터로부터 의미있는 정보를 추출한다
□ 통계학이 정형화된 실험 데이터를 분석대상으로 하는 것에 비해, 데이터사이언스는 정형/비정형을 막론
다양한 유형의 데이터를 대상으로 총체적 접근법을 사용한
□ 데이터 마이닝은 주로 분석에 초점을 두나, 데이터사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄한
□ 데이터사이언스란 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문이
3. 데이터사이언스 핵심
□ 수학/통계학 분석적 지식 : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학
□ IT지식 : 프로그래밍, 데이터 엔지니어링
□ 비즈니스지식 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화
1. 데이터사이언티스트 요
□ 하드스킬(이과적) : 빅데이터에 대한 이론적 지식(관련 기법에 대한 이해와 방법론 습득), 분석 기술에 대한 숙련(최적의 분석 설계 및 노하우
□ 소프트스킬(문과적) : 통찰력 있는 분석(창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달 (스토리텔링, 시각
다분야간 협력(커뮤니케이
2. 전략적 인사이트 도출을 위한
□ 단순 세계화에서 복잡한 세계로의 변화
□ 비즈니스 중심이 제품 생산에서 서비스로 이동
□ 경제와 산업의 논리가 생산에서 시장 창조로 변화
3. 데이터사이언티스트 6가지 핵심 질문
□ 과거 : 무슨 일이 일어났는가? (ex. 리포트 보고서), 어떻게/왜 일어났는가? (ex. 모델링, 실험설계)
□ 현재 : 무슨 일이 일어나고 있는가? (ex. 경고), 차선 행동은 무엇인가? (ex. 권고)
□ 미래 : 무슨 일이 일어날 것인가? (ex. 추출), 최악/최선의 상황은? (ex. 예측, 최적화, 시뮬레이션)
4. 가치 패러다임의 변화(순서)
□ 디지털화 : '아날로그 세상을 어떻게 효과적으로 디지털화하는가'가 이 시대의 가치 창출 원천
□ 연결 : 디지털화된 정보와 대상들은 서로 연결되어 얼마나 효과적이고 효율적으로 제공해주느냐
□ 에이전시 : 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 연결을 얼마나 효과적이고 믿을만하게 관리하는가 이슈.
데이터사이언티스트 역량에 따라 좌우
5. 기타 개념 정리
□ 데이터레이크
- 대규모의 다양한 원시 데이터셋을 기본형식으로 저장하는 데이터 리포지토리 유형
- 데이터레이크에 있는 데이터는 분석을 위해 필요할 때 변화되며 이러한 경우 스키마가 적용되어 데이터분석 가능. 이는 "읽기 스키마"라고 불리는데 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관되기 때문
- DW로 넘어가기 전 구조화되지 않은 데이터
□ 서비타이제이션(Servitization)
- 제품과 서비스의 결합, 서비스의 상품과 그리고 기존 서비스와 신규 서비스의 결합 현상을 포괄
□ 딥러닝
- 여러 층을 가진 인공신경망을 사용하고 머신러닝 학습을 수행하는 심층학습기법으로 대표적 분석 방법으로 LSTM, Autoencoder, RNN 등이 있다.
□ 마이데이터
- 개인이 각종 기업, 기관에 흩어져 있는 자신의 신용정보를 마이데이터 사업자에게 활용하도록 하고, 이를 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것을 의미
□ ETL (Extraction, Transformation and Load) : DW, DM에 저장하는 도구
- ETL은 데이터 이동과 변환 절차와 관련된 업계 표준 용어이다.
- ETL은 DW, 운영데이터 스토어(ODS), 데이터마트에 대한 데이터 적재 작업의 핵심 구성요소
- 데이터 통합(Integration), 데이터 이동(Migration), 마스터데이터관리(MDM)에 걸쳐 폭넓게 활용
- ETL은 데이터이동과 변환을 주목적으로 하며, 3가지 기능으로 구성
● 추출(Extraction) : 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
● 변형(Transformation) : 데이터 클렌징, 형식 변환, 표준화, 정확성과 일관성을 확보
● 적재(Loading) : 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재
□ 하둡의 구성요소(대용량 데이터를 병렬적으로 처리하기 위한 자바 기반의 오픈소스 프레임워크)
- 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.
- 하둡의 코어프로젝트가 HDFS와 MapReduce이며, 이 외에도 다양한 서브프로젝트가 존재한다.
이러한 서브 프로젝트들의 모임을 하둡의 에코시스템이라 한다.
● HDFS(Hadoop Distributed File Systems) : 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템
(블록단위로 데이터를 쪼개서 분산저장)
● MapReduce : 대용량 데이터 처리를 위한 분산 프로그래밍 모델로 대규모 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석(분산된 데이터를 처리, 각각 저장된 곳에서 데이터를 처리하고 집계해서 분석)
데이터 보호 - 개인정보
1. 데이터3법
: '개인정보보호법', '정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)', '신용정보의 이용 및 보호에 관한 법률(신용정보법)'
2. 개인정보의 수집 및 수집 목적 내 이용이 가능한 경우
□ 정보 주체의 동의를 받는 경우
□ 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위해 불가피한 경우
□ 공공기관이 법령 등에서 정하는 소관 업무의 수행을 위해 불가피한 경우
□ 정보주체와의 계약체결 및 이행을 위해 불가피하게 필요한 경우
□ 명백히 정보주체 등의 급박한 생명, 신체, 재산의 이익을 위해 필요한 경우
□ 정보주체의 권리보다 우선하는 개인정보처리자의 정당한 이익 달성을 위해 필요한 경우
3. 개인정보 수집, 이용 동의 시 필수 고지사항
□ 개인정보의 수집, 이용목적, 수집하려는 개인정보 항목, 개인정보 보유 및 이용기간, 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우 그 내용
4. 개인정보 비식별화
□ 개인정보 : 살아있는 개인 정보로서 성명, 주민등록번호 등을 통해 개인을 알아볼 수 있는 정보
□ 비식별화 : 정보의 일부 또는 전부를 삭제 또는 대체하거나 다른 정보와 쉽게 결합하지 못하도록 하여 특정 개인을 알아볼 수 없도록 하는 일련의 조치
- 가명처리 : 식별요소를 다른 값으로 대체
(ex. 홍길동, 35세, 서울거주, 한국대 재학 > 임꺽정, 30대, 서울거주, 국제대 재학)
- 총계처리 또는 평균값 대체 : 데이터를 총합으로 표시하여 개별 데이터값이 보이지 않도록 함
(ex. 임꺽정, 180cm / 홍길동, 170cm > 1-5반 학생키 합 350cm, 평균키 175cm)
- 데이터 값 삭제 : 개인 식별을 인식할 수 있는 값 삭제
(ex. 홍길동, 35세, 서울거주, 한국대 졸업 > 35세, 서울거주)
- 범주화 : 범주 값으로 변환
(ex. 홍길동, 35세 > 홍씨, 30~40세)
- 데이터마스킹 : 개인 식별자가 보이지 않도록 처리
(ex. 홍길동, 35세 > 홍**, 35세)
'ADsP 자격증 공부 > 1과목' 카테고리의 다른 글
데이터의 이해 (0) | 2024.07.04 |
---|---|
ADsP 1과목 공부 : 데이터 이해 - 데이터의 가치와 미래 (0) | 2024.07.02 |