테스트 결과:
데이터 이해 : 7/10 [합격] - 데이터 분석 기획 : 5 / 10 [합격] - 데이터 분석 : 12/30 [합격]
결과 : [불합격]
정답 → 파란글자 / 오답 → 빨간글자
데이터 이해
2. 다음 중 암묵지와 형식지에 대한 설명으로 잘못된 것은?
① 암묵지는 학습과 체험을 통해 개인에게 습득된 지식을 의미한다.
② 형식지는 여러 사람이 공유 가능하도록 외부로 표출된 지식을 의미한다.
③ 암묵지의 특징으로는 내면화, 추상화가 있다.
④ 형식지의 특징으로는 표출화, 연결화가 있다.
암묵지의 특징은 내면화, 공통화이다.
4. 다음 중 빅데이터의 출현 배경으로 부적절한 것은?
① 게놈 프로젝트와 같이 데이터 활용을 다루는 과학이 학계에서 확산
② 디지털화, 저장 기술, 인터넷 보급 등 관련 기술의 발전
③ 다양한 데이터의 정형화로 수집 및 분석이 용이
④ 다양한 산업 분야에서 누적된 다양한 고객 정보
이미지, 동영상과 같이 비정형적 데이터의 등장으로 수집 및 분석의 난이도가 상승했으며 해당 설명은 빅데이터의 출현 배경과는 거리가 멀다.
9. 다음 중 빅데이터의 위기 요인으로 그 사례가 적절하지 않은 것은?
① SNS에 업로드한 여행 게시글로 범죄의 타겟이 된 집
② 항공권 티켓 발권 시 알지 못하는 이유로 발권 거부
③ 범죄 예측 프로그램으로 인한 긴급 체포
④ 검사 사칭 전화를 통한 금융사기 타겟
①은 사생활 침해, ②는 데이터 오용, ③은 책임원칙훼손 문제를 설명하고 있다.
④는 빅데이터 위기 요인과는 관련 없이 단순 보이스 피싱을 의미한다.
데이터 분석 기획
13. 분석 과제들에 대한 우선순위를 고려할 때 빅데이터의 특징을 고려할 수 있다. 다음 ROI관점에서 우선순위를 선정할 때 그 요소로 적절하지 않은 것은 무엇인가?
① Volume
② Variety
③ Value
④ Veracity
ROI 관점의 4V는 Volume, Variety, Velocity, Value 이다.
14. 다음 중 아래 보기에서 설명하는 조직구조는 무엇인가?
전사내에 별도의 분석조직을 보유하고 있으며, 분석조직의 인력을 현업 부서로 배치하여 분석 업무를 수행한다. 전사적 관점에서 분석과제의 우선순위 선정이 가능하다는 장점이 있다.
① 집중형 조직 구조
② 기능 중심 조직 구조
③ 고객 중심 조직 구조
④ 분산형 조직 구조
위 문제는 분산형 조직 구조에 대한 설명이다.
16. 다음 중 분석 프로젝트 관리 영역 10가지에 포함되지 않는 것은 무엇인가?
① 리스크
② 관리
③ 품질
④ 조달
분석 프로젝트 관리 영역 10가지로는 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통이 있다.
17. 다음 중 분석 과제 프로세스에 대한 설명으로 잘못된 것은?
① 과제 발굴과 과제 수행의 두 가지 영역으로 나누어 볼 수 있다.
② 과제 발굴 단계에서 선정된 과제 후보는 현재 혹은 미래에 수행 가능하도록 풀로써 관리한다.
③ 수행된 분석 과제에 대해서는 과제 결과를 다시 과제 후보 풀로써 관리한다.
④ 과제 수행 단계에서 선정된 과제는 팀을 구성하고 과제를 수행하면서 지속적인 모니터링 작업을 병행한다.
수행된 분석 과제는 과제 후보 풀이 아닌 과제 결과 풀로써 관리한다.
20. 다음 중 하향식 접근법의 프로세스에 대한 설명으로 잘못된 것은 무엇인가?
① 타당성 검토 단계에서는 경제적 타당성과 데이터 및 기술적 타당성 검토를 통해 문제 해결 수행 여부를 결정한다.
② 탐색된 문제에 대해 데이터 문제로 변환하는 문제 정의를 수행한다.
③ 비즈니스 모델 캔버스와 더불어 분석 기회 발굴 범위 확장 등을 통해 문제를 탐색한다.
④ 무엇을, 어떻게 분석해야 할지를 기준으로 해결 방안을 탐색한다.
해결 방안 탐색은 무엇을 분석해야 할지, 어떻게 분석해야 할지가 아닌 분석 역량의 여부와 분석 시스템의 여부를 기준으로 해결 방안을 탐색한다.
데이터 분석
21. 다음의 가설 검정 결과를 보고 잘못 해석한 것은?
① 관측치의 개수는 70개임을 알 수 있다.
② 일원분산분석을 수행한 것으로 집단변수는 feed임을 알 수 있다.
③ p-value 값을 보아 귀무가설이 기각됨을 알 수 있다.
④ 위 결과로는 사후검정이 필요한 것으로 판단될 수 있다.
관측치의 개수는 자유도의 합보다 1이 더 많은 71개이다.
22. 다음 중 의사결정나무의 분류 기준과 종속변수의 유형으로 잘못 연결된 것은 무엇인가?
- 지니지수 - 범주형 변수
- 카이제곱 통계량 - 범주형 변수
- F-통계량 - 연속형 변수
- 분산감소량 - 범주형 변수
분산감소량은 연속형 변수에 대한 분류 기준으로 CART 알고리즘에서 활용된다.
24. 다음 중 시계열 분석에 대한 설명으로 부적절한 것은?
- 시계열 자료에서 현재 시점의 데이터로부터 특정 시차만큼 떨어진 값들에 대한 상관계수를 함수로 나타낸 것이 자기상관함수다.
- 백색잡음이란 정규분포로부터 추출된 데이터로, 시계열 자료에서 오차항에 해당한다.
- 평균이 일정하지 않은 경우 변환, 분산이 일정하지 않은 경우 차분을 통해 정상성을 만족시킬 수 있다.
- 자기상관함수는 시차가 0일 때 자기 자신과의 상관계수를 의미하므로 자기상관함수의 값은 1이다.
평균이 일정하지 않은 경우 차분을 통해, 분산이 일정하지 않은 경우 변환을 통해 정상성을 만족시킬 수 있다.
25. 다음 중 연속형 확률변수의 기댓값을 구하는 식으로 올바른 것은?
답 : ①
연속형 확률변수의 기댓값을 구하는 식은 1번이다.
26.
정답 : ②
첫 번째 주성분은 절댓값이 큰 Murder, Assault, Rape에 크게 영향받는다.
29. 다음 중 k-평균군집을 수행하는 순서를 올바르게 나열한 것은?
(가) 모든 개체가 군집으로 할당될 때까지 위의 과정을 반복한다.
(나) 각 군집의 seed 값을 계산한다.
(다) 원하는 군집의 개수와 초깃값을 정해 군집을 형성한다.
(라) 각 데이터를 가장 가까운 seed가 있는 군집으로 분류한다.
- (다) - (라) - (가) - (나)
- (다) - (라) - (나) - (가)
- (다) - (나) - (라) - (가)
- (다) - (나) - (가) - (라)
순서를 올바르게 나열한 것은 2번이다.
30. 시계열 모형 ARIMA(3, 2, 1)에 대해서 정상화를 위해 차분을 수행하게 되면 몇 번의 차분을 수행해야 하는가?
- 1
- 2
- 3
- 4
ARIMA(3, 2, 1)의 경우 정상화를 위해 차분을 수행하게 되면 2번의 차분을 통해 ARMA(3, 1)이 된다.
31. 다음 중 다차원 척도법에 대한 설명으로 잘못된 것은 무엇인가?
- 객체 간의 유사성을 시각화하는 통계 기법으로 군집분석과 유사하다.
- Stress 값을 척도로 활용하여 적합도를 판단할 수 있으며 그 값이 높을수록 좋다.
- 주성분분석과 마찬가지로 차원 압축이라는 점은 시각화에 있어 한계점이 있음은 분명하다.
- 구간척도 또는 비율척도인 경우 계량적 방법을 활용해야 한다.
Stress 값은 낮을수록 좋다.
34.
정답 : ①
기댓값은
(-1) x 1 / 2 + 0 x 1 / 3 + 1 x 1 / 6 = -1 / 3
분산은
((-1)^2 x 1 / 2 + 0^2 x 1 / 3 + 1^2 x 1 / 6) - [(-1 / 3)] ^2 = 5 / 9 이다.
35. 다음 중 로지스틱 회귀분석에 대한 설명으로 잘못된 것은?
- 분석을 통해 얻은 회귀계수가 한 단위 증가할 때 특정 집단에 속할 확률은 e의 회귀계수승만큼 증가한다.
- 로지스틱 회귀분석의 종속변수는 범주형이다.
- 독립변수가 여러 개 있는 경우에도 다중회귀와 같은 방법으로 종속변수(y)의 확률값을 구할 수 있다.
- 오즈란 실패확률을 성공확률로 나눈 값이다.
오즈는 성공확률을 실패확률로 나눈 값이다.
36. 다음 중 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 표본추출 방법은 무엇인가?
- 층화 추출법
- 집락 추출법
- 단순 임의 추출법
- 계통 추출법
위 문제의 설명은 계통 추출법에 대한 설명이다.
37. 주성분분석은 이해하기 힘든 고차원의 데이터를 낮은 차원의 데이터로 변환하여 데이터의 구조를 분석하는 것이 목적이다. 다음 중 주성분분석에 대한 설명으로 올바르지 않은 것은 무엇인가?
- 다변량 자료를 저차원의 데이터로 변환하는 방법으로 주성분의 갯수를 선정하는 방법으로는 평균고윳값, scree plot을 이용할 수 있다.
- 회귀분석에서 다중공선성이 의심될 경우 저차원의 데이터로 변경하여 변수의 상관성을 낮추어 다중공선성 문제를 해결할 수 있다.
- 고차원의 데이터는 많은 정보를 보유한 것으로 생각되지만 데이터의 밀도가 감소하면서 모델 구축 시 모델의 성능이 저하되는 차원의 저주 문제를 해결하기 위해 활용 가능하다.
- 평균고윳값 방법을 활용하여 주성분분석을 수행할 때는 평균고윳값보다 큰 고윳값을 갖는 주성분을 제거하여 분산을 낮추게 되어 안정적인 차원 축소가 가능하다.
평균고윳값 방법은 평균고윳값보다 고윳값이 작은 주성분을 제거한다.
또한 분산이 클수록 많은 정보량을 가질 수 있기 때문에 분산을 낮추는 것은 좋은 차원 축소라 할 수 없다.
39. 다음은 앙상블 기법 중 배깅에서 언급되는 단어와 그 설명을 정리한 것이다. 설명이 잘못된 것은 무엇인가?
- 붓스트랩: 원 데이터로부터 같은 크기만큼 랜덤 복원 추출한 샘플 데이터
- 분류기: 의사결정나무 또는 회귀모형과 같은 하나의 모델
- 보팅: 여러 분류기로부터 얻은 결과로부터 최종 결과를 선정하는 작업
- 퍼셉트론: 잘못 분류된 데이터에 대하여 가중치를 가하는 작업
퍼셉트론은 배깅과 관련이 없다.
41. 다음 중 시계열 요소가 아닌 것은?
- 정상 요인
- 계절 요인
- 순환 요인
- 추세 요인
정상 요인은 분해 시계열 요소가 아니다.
46.
4. 5
정답 : ②
BIC가 최대가 되는 지점이 최적의 군집 수이므로 3개이다.
47. 다음 중 표본조사에 대한 설명으로 부적절한 것은 무엇인가?
- 비표본오차는 조사 과정에서 발생할 수 있는 모든 부주의나 실수 등을 의미하며 표본의 크기에 상관없이 일정한 오차를 갖는다.
- 모표본오차는 모집단을 대표할 수 있는 표본들이 표본집단에 속하지 못함으로써 발생하는 오차를 의미한다.
- 표본편의는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에 의한 오차를 의미한다.
- 표본 표준편차는 모집단의 표준편차에 비례하며, 표본 크기의 제곱근에 반비례한다.
48. 다음 중 확률 및 확률분포에 대한 설명으로 잘못된 것은 무엇인가?
- 모든 확률은 반드시 0과 1 사이의 값을 갖는다.
- 두 사건이 배반사건인 경우 P(A) + P(B) = P(A∪B)가 성립한다.
- 두 사건이 독립사건인 경우 P(A) + P(B) = P(A∩B)가 성립한다.
- A라는 사건이 발생했을 때 B라는 사건이 발생하는 조건부 확률은 (P(A∩B))/(P(B))이다.
A라는 사건이 발생했을 때 B라는 사건이 발생하는 조건부 확률은 (P(A∩B))/(P(A))이다.
49. 다음 중 아래 통계 용어와 그 설명이 잘못된 것은?
- 분산: 데이터가 흩어져 있는 정도를 나타내는 것으로, 단위는 원 데이터의 제곱이다.
- 왜도: 데이터의 분포가 어느 쪽으로 많이 치우쳐 있는지를 나타내는 것으로, 왜도 값이 음수이면 최빈값 < 평균 관계가 성립한다.
- 첨도: 데이터가 평균에 얼마나 많이 몰려 있는지를 나타내는 정도로, 첨도 값이 클수록 확률분포가 뾰족한 그래프를 갖는다.
- 상관관계: 두 데이터 간의 상관 정도를 나타내는 것으로, 그 값이 1에 가까울수록 두 변수는 강한 양의 상관관계를 갖는다.
왜도 값이 음수이면 최빈값 > 중앙값 > 평균 관계가 성립한다.
마무리
39회 기출을 풀어보면서 아직 많이 부족함을 느끼고 있어서 더 많은 기출문제를 풀어봐야겠습니다.