스파크를 다루는 기술이란 책을 공부하면서 요약한 내용들이며, 필요한 부분들에 한해서 정리

 

 

책 구성 ( 4부, 14장 )

  • 1부 - 아파치 스파크와 스파크의 풍부한 API를 소개
    • 1장 - 아파치 스파크 소개
      • 스파크 주요 기능 설명
      • 하둡의 맵리듀스 및 기타 하둡 생태계의 도구와 스파크를 비교
      • 예제 실행을 위한 가상 머신 소개
    • 2장 - 스파크의 기초
      • 가상 머신 실행
      • 스파크 쉘(스파크의 명령줄 인터페이스)의 사용법 설명
      • RDD(스파크의 핵심적인 추상화 객체)를 예제와 함께 설명 
    • 3장 - 스파크 애플리케이션  
      • 스파크의 독립형 애플리케이션을 작성할 수 있는 이클립스 설정 방법
      • 깃허브 로그를 분석하는 예제 애플리케이션 작성 및 실행
    • 4장 - 스파크 코어 API
      • 키-값 쌍을 사용하는 방법
      • 스파크의 데이터 파티셔닝 및 셔플링 동작 방식
      • 데이터 그루핑/정렬/조인하는 방법
      • 누적변수, 공유 변수 다루는 방법
  • 2부 
    • 5장 - 스파크 SQL
      • DataFrame 생성 및 사용 방법
      • SQL을 사용하여 DataFrame에 질의하는 방법
      • 외부 데이터 소스에서 데이터를 로드하고 저장하는 방법
      • 카탈리스트 최적화 엔진
      • 텅스텐 프로젝트가 달성한 스파크 성능 향상 확인
    • 6장 - 스파크 스트리밍
      • 스파크 스트리밍 소개
      • 주기적으로 RDD를 생성하는 이산 스트림 소개
      • 스파크 스트리밍과 카프카를 연결하는 방법
      • 스트리밍 잡 성능 개선 방법
      • 정형 스트리밍 설명
    • 7장 - MLlib
      • 머신 러닝의 일반적인 내용
      • 머신 러닝 알고리즘
    • 8장 - 스파크 ML
    • 9장 - GraphX
      • GraphX API를 사용하여 그래프 다루는 방법 설명
      • 그래프 변환, 조인 연산과 그래프 알고리즘을 사용하는 방법 실습
  • 3부 - 다양한 클러스터에서 애플리케이션을 실행하는데 필요한 기본 개념과 설정 옵션
    • 10장 - 스파크 클러스터 구동
      • 스파크의 런타임 컨포넌트와 클러스터 유형, 잡 및 리소스 스케쥴링 개념 설명
      • 스파크를 설정하는 방법
      • 스파크 웹 UI 상ㅇ 방법
    • 11장 - 스파크 자체 클러스터
      • 클러스터의 컴포넌트 소개
      • 클러스터 시작하는 방법
      • 애플리케이션 실행하는 방법
      • 클러스터 웹 UI 사용하는 방법
    • 12장 - YARN 클러스터와 메소스 클러스터
      • 구축/설정/사용 방법에 대해 다룸
  • 4부 - 상위 레벨에서 스파크를 활용하는 방법 
    • 13장 - 실시간 대시보드 구현
      • 접속 로그 분석 결과를 실시간 대시보드로 표시하는 스파크 스트리밍 애플리케이션 구현
    • 14장 - 스파크와 H2O를 활용한 딥러닝
      • H2O와 스파클링 워터 소개

 

 

머신 러닝 및 그래프를 활용하는 부분을 제외하고, 데이터 처리(스파크 SQL, 스파크 스트리밍)에 초점을 맞춰 공부

 

 

+ Recent posts