본문 바로가기

아키텍처

[조대협 대용량 아키텍처]Map & Reduce 기반의 분석 시스템

기존의 전통적인 OLAP RDBMS을 이용한 데이터 분석이 용량의 한계로 다른 접근 방법을 사용하게 되었다.

대표적인 방법으로 Map & Reduce라는 방법을 사용한 데이터 분석이 있다.

 

Map & Reduce는 프로그래밍 아키텍처의 개념으로 Map & Reduce는 하나의 큰 데이터를 여러 개의 조각으로 나눠서 처리하는 단계 (Map) 처리 결과를 모아서 하나로 합쳐서 결과를 내는 단계(Reduce)로 나뉘어 진다.

 

조대협의 서버사이드 대용량 아키텍처와 성능 튜닝 그림 6-37

예를 들면 어떤 기업의 사원들의 월급을 더한다고 가정을 해보자.

사원들의 월급이 적혀 있는 텍스트 파일이 하나 있다고 전제로 생각을 하자

각각 월급을 차례대로 더 할수도 있지만 전체 파일을 여러 조각으로 나눠서 월급을 합하고 그 결과를 하나로 더 하면 조각을 나눈 만큼의 계산을 병렬로 처리 할 수 있기 때문에 조금 더 빠른 결과를 낼 수 있다.

여기서 파일을 여러 조각을 나눠서 계산하는 것을 Map 그리고 합치는 과정을 Reduce라고 한다.

 

이러한 아키텍처의 대표적인 구현체로는 하둡(Hadoop)이 있다. 

Map & Reduce는 저가의 일반적인 하드웨어로 대용량 분석 처리 할 수 있는 장점을 가지고 있다

데이터 수집, 변환 및 분석 리포팅 전과정을 직접 구현해야하는 단점을 가지고 있다.

 

이전 글

전통적인 OLAP 방식의 분석 시스템

 

전통적인 OLAP 방식의 분석 시스템

전통적인 기업형 업무에서는 RDBMS 기반의 분석 시스템을 사용했다. OLAP(OnLine Anlaytics Processiong) 이라는 형태의 분석에 최적화된 데이터베이스를 사용하여 데이터를 분석하여 리포트를 생성한다. 구조는..

alsyean.tistory.com

다음 글

Map & Reduce + OLAP

 

Map & Reduce + OLAP

Map & Reduce가 대용량 데이터를 분석하기에는 좋은 기술이지만 데이터를 분석 할때마다 여러가지 알고리즘을 직접 작성해야하는 불편요소가 있다. 다각적인 각도에서 데이터를 분석하기에는 기존의 OLAP 기반의..

alsyean.tistory.com

 


더보기

이 글은 조대협의 서버사이드 대용량 아키텍처와 성능 튜닝 책을 참고하여 작성되었습니다.

이 글은 코드프레소 DevOps Roasting 코스를 수강하면서 작성한 글입니다.