스파크를 다루는 기술이란 책을 공부하면서 요약한 내용들이며, 필요한 부분들에 한해서 정리
책 구성 ( 4부, 14장 )
- 1부 - 아파치 스파크와 스파크의 풍부한 API를 소개
- 1장 - 아파치 스파크 소개
- 스파크 주요 기능 설명
- 하둡의 맵리듀스 및 기타 하둡 생태계의 도구와 스파크를 비교
- 예제 실행을 위한 가상 머신 소개
- 2장 - 스파크의 기초
- 가상 머신 실행
- 스파크 쉘(스파크의 명령줄 인터페이스)의 사용법 설명
- RDD(스파크의 핵심적인 추상화 객체)를 예제와 함께 설명
- 3장 - 스파크 애플리케이션
- 스파크의 독립형 애플리케이션을 작성할 수 있는 이클립스 설정 방법
- 깃허브 로그를 분석하는 예제 애플리케이션 작성 및 실행
- 4장 - 스파크 코어 API
- 키-값 쌍을 사용하는 방법
- 스파크의 데이터 파티셔닝 및 셔플링 동작 방식
- 데이터 그루핑/정렬/조인하는 방법
- 누적변수, 공유 변수 다루는 방법
- 1장 - 아파치 스파크 소개
- 2부
- 5장 - 스파크 SQL
- DataFrame 생성 및 사용 방법
- SQL을 사용하여 DataFrame에 질의하는 방법
- 외부 데이터 소스에서 데이터를 로드하고 저장하는 방법
- 카탈리스트 최적화 엔진
- 텅스텐 프로젝트가 달성한 스파크 성능 향상 확인
- 6장 - 스파크 스트리밍
- 스파크 스트리밍 소개
- 주기적으로 RDD를 생성하는 이산 스트림 소개
- 스파크 스트리밍과 카프카를 연결하는 방법
- 스트리밍 잡 성능 개선 방법
- 정형 스트리밍 설명
- 7장 - MLlib
- 머신 러닝의 일반적인 내용
- 머신 러닝 알고리즘
- 8장 - 스파크 ML
- 9장 - GraphX
- GraphX API를 사용하여 그래프 다루는 방법 설명
- 그래프 변환, 조인 연산과 그래프 알고리즘을 사용하는 방법 실습
- 5장 - 스파크 SQL
- 3부 - 다양한 클러스터에서 애플리케이션을 실행하는데 필요한 기본 개념과 설정 옵션
- 10장 - 스파크 클러스터 구동
- 스파크의 런타임 컨포넌트와 클러스터 유형, 잡 및 리소스 스케쥴링 개념 설명
- 스파크를 설정하는 방법
- 스파크 웹 UI 상ㅇ 방법
- 11장 - 스파크 자체 클러스터
- 클러스터의 컴포넌트 소개
- 클러스터 시작하는 방법
- 애플리케이션 실행하는 방법
- 클러스터 웹 UI 사용하는 방법
- 12장 - YARN 클러스터와 메소스 클러스터
- 구축/설정/사용 방법에 대해 다룸
- 10장 - 스파크 클러스터 구동
- 4부 - 상위 레벨에서 스파크를 활용하는 방법
- 13장 - 실시간 대시보드 구현
- 접속 로그 분석 결과를 실시간 대시보드로 표시하는 스파크 스트리밍 애플리케이션 구현
- 14장 - 스파크와 H2O를 활용한 딥러닝
- H2O와 스파클링 워터 소개
- 13장 - 실시간 대시보드 구현
머신 러닝 및 그래프를 활용하는 부분을 제외하고, 데이터 처리(스파크 SQL, 스파크 스트리밍)에 초점을 맞춰 공부
'빅데이터 > spark' 카테고리의 다른 글
Spark in Action - 3장 스파크 애플리케이션 작성하기 (0) | 2021.09.15 |
---|---|
Spark in Action - 2장 스파크의 기초 (0) | 2021.09.15 |
Spark in Action - 1장 아파치 스파크 소개 (0) | 2021.09.12 |