Spark in Action - 0장 책 목차 소개

sumni0530 2021. 9. 11. 23:40

2021. 9. 11. 23:40

스파크를 다루는 기술이란 책을 공부하면서 요약한 내용들이며, 필요한 부분들에 한해서 정리

책 구성 ( 4부, 14장 )

1부 - 아파치 스파크와 스파크의 풍부한 API를 소개
- 1장 - 아파치 스파크 소개
  - 스파크 주요 기능 설명
  - 하둡의 맵리듀스 및 기타 하둡 생태계의 도구와 스파크를 비교
  - 예제 실행을 위한 가상 머신 소개
- 2장 - 스파크의 기초
  - 가상 머신 실행
  - 스파크 쉘(스파크의 명령줄 인터페이스)의 사용법 설명
  - RDD(스파크의 핵심적인 추상화 객체)를 예제와 함께 설명
- 3장 - 스파크 애플리케이션
  - 스파크의 독립형 애플리케이션을 작성할 수 있는 이클립스 설정 방법
  - 깃허브 로그를 분석하는 예제 애플리케이션 작성 및 실행
- 4장 - 스파크 코어 API
  - 키-값 쌍을 사용하는 방법
  - 스파크의 데이터 파티셔닝 및 셔플링 동작 방식
  - 데이터 그루핑/정렬/조인하는 방법
  - 누적변수, 공유 변수 다루는 방법
2부
- 5장 - 스파크 SQL
  - DataFrame 생성 및 사용 방법
  - SQL을 사용하여 DataFrame에 질의하는 방법
  - 외부 데이터 소스에서 데이터를 로드하고 저장하는 방법
  - 카탈리스트 최적화 엔진
  - 텅스텐 프로젝트가 달성한 스파크 성능 향상 확인
- 6장 - 스파크 스트리밍
  - 스파크 스트리밍 소개
  - 주기적으로 RDD를 생성하는 이산 스트림 소개
  - 스파크 스트리밍과 카프카를 연결하는 방법
  - 스트리밍 잡 성능 개선 방법
  - 정형 스트리밍 설명
- 7장 - MLlib
  - 머신 러닝의 일반적인 내용
  - 머신 러닝 알고리즘
- 8장 - 스파크 ML
- 9장 - GraphX
  - GraphX API를 사용하여 그래프 다루는 방법 설명
  - 그래프 변환, 조인 연산과 그래프 알고리즘을 사용하는 방법 실습
3부 - 다양한 클러스터에서 애플리케이션을 실행하는데 필요한 기본 개념과 설정 옵션
- 10장 - 스파크 클러스터 구동
  - 스파크의 런타임 컨포넌트와 클러스터 유형, 잡 및 리소스 스케쥴링 개념 설명
  - 스파크를 설정하는 방법
  - 스파크 웹 UI 상ㅇ 방법
- 11장 - 스파크 자체 클러스터
  - 클러스터의 컴포넌트 소개
  - 클러스터 시작하는 방법
  - 애플리케이션 실행하는 방법
  - 클러스터 웹 UI 사용하는 방법
- 12장 - YARN 클러스터와 메소스 클러스터
  - 구축/설정/사용 방법에 대해 다룸
4부 - 상위 레벨에서 스파크를 활용하는 방법
- 13장 - 실시간 대시보드 구현
  - 접속 로그 분석 결과를 실시간 대시보드로 표시하는 스파크 스트리밍 애플리케이션 구현
- 14장 - 스파크와 H2O를 활용한 딥러닝
  - H2O와 스파클링 워터 소개

머신 러닝 및 그래프를 활용하는 부분을 제외하고, 데이터 처리(스파크 SQL, 스파크 스트리밍)에 초점을 맞춰 공부

'빅데이터 > spark' 카테고리의 다른 글

Spark in Action - 3장 스파크 애플리케이션 작성하기 (0)	2021.09.15
Spark in Action - 2장 스파크의 기초 (0)	2021.09.15
Spark in Action - 1장 아파치 스파크 소개 (0)	2021.09.12

sumni's blog

Spark in Action - 0장 책 목차 소개

'빅데이터 > spark' 카테고리의 다른 글

+ Recent posts

티스토리툴바