|
I love startups that name their conference rooms Hadoop. I am at @cloudera thinking about big data. by Robert Scoble |
Today's latte, Hadoop. by yukop |
제3장 주요 사업자의 전략과 빅 데이터 활용을 지원하는 기술
빅 데이터를 ‘취득하고 생성’한다
1. 발전하는 병렬처리
SMP(Symmetric Multi Processing, 대칭형 다중처리 프로세싱) → 클러스터형 → MMP(Massively Parallel Processing, 초병렬 프로세싱) - 쉐어드 너싱 방식 → 맵리듀스
※ 데이터 사이즈, 계산량에 따른 아키텍쳐의 진화
2. 효율화의 경위와 해석
1) 쉐어드 너싱형에 대한 관심 증가의 원인
- 예전에는 병목을 의식할 정도로 대량의 데이터를 다루는 상황이 없었다.
- 하드웨어적인 면에서는 고성능 하드웨어를 사용하기 어려웠고, 소프트웨어적인 면에서는 쉐어드 너싱형에서 병렬처리를 실시할 수 있는 소프트웨어가 완성될 때까지 시간이 필요했다.
2) 쉐어드 너싱형의 단점
- 로딩에 걸리는 시간이 길다
3) 쉐어드 너싱형 채택에 데 필요한 상품의 정비
- 분석에 대한 수요와 데이터 양의 증가
- 하드웨어 가격 하락에 따른 비용 대비 효과의 상승
- 병렬처리를 위한 소프트웨어의 완성
3. 데이터의 정합성 확보
마스터 데이터 매니지먼트 - 정합성을 갖추고 있지 않은 데이터를 분석 가능한 형태로 정리하는 작업
빅 데이터를 ‘축적’한다
1. 클라우드를 활용한 축적과 통신 관련 과제
아스페라(Aspera)의 FASP http://asperasoft.com/technology/transport/fasp/?L=0..
아마존 - AWS 임포트/익스포트
빅 데이터를 처리하고 분석한다
1. NoSQL(Not Only SQL)의 등장
1) 기존의 릴레이셔널 데이터베이스로 관리할 수 있었던 데이터 뿐만 아니라 대용량 비구조 데이터 분석에도 크게 기여
2) 하둡(Hadoop)의 특성
- 분산처리 알고리즘 (MapReduce) + 분산 파일 시스템(HDFS)
(1) 대용량 비구조 데이터 대상
(2) 큰 수고나 시스템 없이도 분산처리 가능
- 대용량 데이터를 나누고 모으는 공정이 핵심
- 태스크의 투기적 실행
(3) 그다지 높은 스펙의 하드웨어 환경이 필요하지 않은 점
- 아마존 일래스틱 맵리듀스(Amazon Elastic MapReduce)
http://aws.amazon.com/ko/elasticmapreduce
Amazon Elastic Compute Cloud(Amazon EC2)와 Amazon Simple Storage Service(Amazon S3)의 웹 스케일 인프라에서 실행되는 호스팅 하둡(Hadoop) 프레임워크를 활용합니다.
(4) 오픈 소스이며 주변 툴 또한 충실해지고 있는 점
- Hive http://hive.apache.org/
- Pig http://pig.apache.org/
- Mahout http://www.ibm.com/developerworks/kr/library/j-mahout
2. 하둡은 결코 만능 수단이 아니다
- Pregel : Google’s other data-processing infrastructure
- Precolator : [PDF] Large-scale Incremental Processing Using Distributed ... - Usenix
3. 기계학습 기술의 발달
- 구글 Prediction API : 기계학습 기반을 클라우드로 제공하고 있는 사례
4.빅데이터를 고속으로 처리하는 복합이벤트 처리(CEP, Complex Event Processing)
1) 스트림 컴퓨터 : 복수의 정보 소스로 부터 시시각각 전달되는 데이터를 복합적으로 분석하고 판단하여 신속하게 의사를 결정하는 계산 패러다임
2) 데이터가 처리시스템에 도착하자마자 스토리지에 축적되는 과정없이 온메모리 상태에서 순차적으로 처리된다 (vs 데이터웨어하우스 : 축적된 대용량 데이터를 다양하게 처리하고 분석하는 것)
3) 복합이벤트처리기가 실행하는 기본적인 처리
(1) 관심있는 데이터만 남긴다
(2) 복수의 데이터 소스에서 얻은 데이터를 결합한다
(3) 하나의 데이터 소스에서 얻은 데이터를 여러 개로 나눈다
(4) 데이터간의 관계성 및 패턴 검출
|