빅 데이터 비즈니스 by 스즈키 료스케 - 제3장 주요 사업자의 전략과 빅 데이터 활용을 지원하는 기술

728x90

빅데이터 비즈니스: 국내도서>경제경영; 저자 : 스즈키 료스케 / 천재정역; 출판 : 도서출판더숲 2012.03.13

상세보기

I love startups that name their conference rooms Hadoop. I am at @cloudera thinking about big data. by Robert Scoble

Today's latte, Hadoop. by yukop

제3장 주요 사업자의 전략과 빅 데이터 활용을 지원하는 기술

빅 데이터를 ‘취득하고 생성’한다

1. 발전하는 병렬처리

SMP(Symmetric Multi Processing, 대칭형 다중처리 프로세싱) → 클러스터형 → MMP(Massively Parallel Processing, 초병렬 프로세싱) - 쉐어드 너싱 방식 → 맵리듀스

※ 데이터 사이즈, 계산량에 따른 아키텍쳐의 진화

2. 효율화의 경위와 해석

1) 쉐어드 너싱형에 대한 관심 증가의 원인

- 예전에는 병목을 의식할 정도로 대량의 데이터를 다루는 상황이 없었다.

- 하드웨어적인 면에서는 고성능 하드웨어를 사용하기 어려웠고, 소프트웨어적인 면에서는 쉐어드 너싱형에서 병렬처리를 실시할 수 있는 소프트웨어가 완성될 때까지 시간이 필요했다.

2) 쉐어드 너싱형의 단점

- 로딩에 걸리는 시간이 길다

3) 쉐어드 너싱형 채택에 데 필요한 상품의 정비

- 분석에 대한 수요와 데이터 양의 증가

- 하드웨어 가격 하락에 따른 비용 대비 효과의 상승

- 병렬처리를 위한 소프트웨어의 완성

3. 데이터의 정합성 확보

마스터 데이터 매니지먼트 - 정합성을 갖추고 있지 않은 데이터를 분석 가능한 형태로 정리하는 작업

빅 데이터를 ‘축적’한다

1. 클라우드를 활용한 축적과 통신 관련 과제

아스페라(Aspera)의 FASP http://asperasoft.com/technology/transport/fasp/?L=0..

아마존 - AWS 임포트/익스포트

빅 데이터를 처리하고 분석한다

1. NoSQL(Not Only SQL)의 등장

1) 기존의 릴레이셔널 데이터베이스로 관리할 수 있었던 데이터 뿐만 아니라 대용량 비구조 데이터 분석에도 크게 기여

2) 하둡(Hadoop)의 특성

- 분산처리 알고리즘 (MapReduce) + 분산 파일 시스템(HDFS)

(1) 대용량 비구조 데이터 대상

(2) 큰 수고나 시스템 없이도 분산처리 가능

- 대용량 데이터를 나누고 모으는 공정이 핵심

- 태스크의 투기적 실행

(3) 그다지 높은 스펙의 하드웨어 환경이 필요하지 않은 점

- 아마존 일래스틱 맵리듀스(Amazon Elastic MapReduce)

http://aws.amazon.com/ko/elasticmapreduce

Amazon Elastic Compute Cloud(Amazon EC2)와 Amazon Simple Storage Service(Amazon S3)의 웹 스케일 인프라에서 실행되는 호스팅 하둡(Hadoop) 프레임워크를 활용합니다.

(4) 오픈 소스이며 주변 툴 또한 충실해지고 있는 점

- Hive http://hive.apache.org/

- Pig http://pig.apache.org/

- Mahout http://www.ibm.com/developerworks/kr/library/j-mahout

2. 하둡은 결코 만능 수단이 아니다

- Pregel : Google’s other data-processing infrastructure

- Precolator : [PDF] Large-scale Incremental Processing Using Distributed ... - Usenix

3. 기계학습 기술의 발달

- 구글 Prediction API : 기계학습 기반을 클라우드로 제공하고 있는 사례

4.빅데이터를 고속으로 처리하는 복합이벤트 처리(CEP, Complex Event Processing)

1) 스트림 컴퓨터 : 복수의 정보 소스로 부터 시시각각 전달되는 데이터를 복합적으로 분석하고 판단하여 신속하게 의사를 결정하는 계산 패러다임

2) 데이터가 처리시스템에 도착하자마자 스토리지에 축적되는 과정없이 온메모리 상태에서 순차적으로 처리된다 (vs 데이터웨어하우스 : 축적된 대용량 데이터를 다양하게 처리하고 분석하는 것)

3) 복합이벤트처리기가 실행하는 기본적인 처리

(1) 관심있는 데이터만 남긴다

(2) 복수의 데이터 소스에서 얻은 데이터를 결합한다

(3) 하나의 데이터 소스에서 얻은 데이터를 여러 개로 나눈다

(4) 데이터간의 관계성 및 패턴 검출

빅데이터 비즈니스: 국내도서>경제경영; 저자 : 스즈키 료스케 / 천재정역; 출판 : 도서출판더숲 2012.03.13

상세보기

728x90

저작자표시 비영리 변경금지

'반서재 Antilibrary' 카테고리의 다른 글

히라노 게이치로(平野啓一郞) TEDxKyoto 2012 강연 동영상 Individualism and the written word: Keiichiro Hirano at TEDxKyoto 2012 (0)	2012.10.19
콰이어트 Quiet by 수전 케인 Susan Cain - 프롤로그. 기질의 남과 북, 1장. 무지 호감가는 친구 - 어떻게 외향성이 우리 문화의 이상으로 자리잡았을까 (1)	2012.10.14
빅 데이터 비즈니스 by 스즈키 료스케 - 제2장 빅 데이터 비즈니스의 효용과 그 활용의 예 (0)	2012.10.11
50세가 넘어도 30대로 보이는 생활습관 - Part 1. 노화, 당신의 생활습관이 문제다! (0)	2012.09.26
빅 데이터 비즈니스 by 스즈키 료스케 - 제1장 빅 데이터 비즈니스란 무엇인가 (0)	2012.09.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

갈루아의 반서재

빅 데이터 비즈니스 by 스즈키 료스케 - 제3장 주요 사업자의 전략과 빅 데이터 활용을 지원하는 기술

'반서재 Antilibrary' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역