본문 바로가기
ADsP 자격증 공부/4과목

R 기초와 데이터 마트

by 데이터 분석가가 되자 2024. 6. 19.
반응형

데이터 마트 정의를 이해하고 R언어를 실습할 예정입니다.

 

 

     

     


    데이터 마트

    데이터 마이닝에서 다양한 분석기법을 적용해 모델을 개발하는 과정을 모델링이라고 합니다.

    어떤 모델링 기법을 사용하던지 모델 개발을 위해 데이터를 미리 시스템에 체계적으로 준비해 놓으면 모델링이 수월해집니다.

     

    어떤 모델링 도구는 데이터베이스에서 직접 값을 가져다 변형하는 과정이 필요합니다.

     

    잘 정리된 데이터 마트를 개발해 놓으면 보다 효율적이고 신속한 모델링이 될 수 있습니다.

     

    데이터 마트란 데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터들을 담은 비교적 작은 규모의 데이터 웨어하우스입니다.

     

    즉 일반적인 데이터베이스 형태로 갖고 있는 다양한 정보를 사용자의 요구 항목에 따라 체계적으로 분석하여 기업의 경영 활동을 돕기 위한 시스템을 말합니다.

     

    데이터 웨어하우스는 정부 기관 또는 정부 전체의 상세 데이터를 포함하는데 비해, 데이터 마트는 전체적인 데이터 웨어하우스에 있는 일부 데이터를 가지고 특정 사용자를 대상으로 합니다.

     

    데이터 웨어하우스와 데이터 마트의 구분은 사용자의 기능 및 제공 범위를 기준으로 합니다. 

     


    R reshape를 활용한 데이터 마트 개발

    어떤 데이터는 여러 계층 또는 수준으로 그룹화를 시킬 수 있거나 다양한 관점에서 살펴볼 필요가 있습니다.

     

    예를 들면 같은 데이터를 반복 측정한 경우 수집된 데이터를 관측하고자 하는 변수 기준으로 살펴볼 수 있고 매 회의 반복을 기준으로 살펴볼 수 있는 것과 같은 원리입니다.

     

    이런 방식의 데이터 탐색을 용이하게 수행하기 위해서는 데이터 셋에 대한 일종의 변형이 필요합니다.

     

    어떤 변형을 어떻게 수행해야 할 것인지 정확하게 정의 내리긴 어려워도 기존의 데이터 셋과는 다른 새로운 무언가 필요할 것입니다.

     

    reshape는 데이터 재정렬을 위한 기법의 하나입니다.

     

    reshape와 비견될 수 있는 개념 중 하나는 밀집화(aggregation)인데 reshape보다는 밀집화가 우리에게 좀 더 친숙하고 쉽게 수행되고 있는 방법입니다.

     

    밀집화 기법을 이용하면 복잡한 데이터를 더 단순하고 사용하기 편리한 상태로 축소하거나 재정렬 할 수 있습니다.

     

    대표적으로 사용되는 밀집화 기법 중 하나가 ExcelPivot Table 기능입니다.

     

    하지만 이런 밀집화 기법을 사용하면 데이터가 간단명료하게 표시되기는 하지만 기존의 데이터가 가지고 있던 더 많은 정보들을 손실하게 됩니다.

     

    이와 달리 reshape는 데이터 재정렬을 수행하되, 원래 데이터가 가지고 있던 모든 정보들을 그대로 유지한다는 것이 차이점입니다.

     

    R에서는 다양한 방식으로 reshape를 수행할 수 있는 명령어들이 존재하지만 어려움이 많았습니다.

     

    'reshape'패키지는 이러한 문제를 극복한 reshape 방법의 하나로서 데이터 마트 개발에 'reshape'패키지를 사용할 것입니다.

     


     

     

     

     

     

     

    반응형