글 작성자: 개발섭

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

아파치 스파크란?

아파치 스파크는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하고 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 이 책에서는 스파크를 활용하여 실시간 처리와 관련된 여러가지 정보들을 알려주고 있다. 

이책에서 가장 중점적으로 하는 집중하는 분야는 특히 Streaming과 관련되어있는 쪽으로 실시간에 포커스가 맞춰져있다.

이 책에서 주로 다루는 내용

대주제로써는 아파치 스파크를 사용한 스트림 처리의 기본. 구조적 스트리밍, 스파크 스트리밍,고급 스트리밍 기술과 같은 방향으로 전적으로 스트리밍 서비스와 대용량 스트리밍에 적합한 내용들 위주로 대부분의 내용들로 구성되어있었으며, 어떤식으로 코딩을 해야하는 가에 대해서도 역시 적혀져 있었다. 

Spark를 다루는 언어로는 대부분 Scala를 이용하고 있고, 스칼라를 바탕으로 스트리밍을 하는 방식에 대해서 예제를 많이 다루고 있다. 스트리밍에 필요한 API들에 대해서 자세하게 다루고 있었다. 

 

내부 내용중 구조적 스트리밍 소스에 관련하여 간략하게 보자면,  다음과 같은 내용들이 포함되어있었다. (p.153)

사용가능한 소스가 파일, 카프카 소캣, 레이트와 같은 소스들을 지정해서 구조적 스트리밍소스에 포함되있다.

그중 파일형식을 지정하기 위해서는 스칼라에서 다음과 같은 방향으로 설정해줘야한다. 

 

파일은 다음과 같은 형식을 지켜줘야한다. 

  • CSV
  • JSON
  • 파케이
  • 텍스트 등...

구조적 스트리밍을 하기위해서 필요한 직접적으로 사용할 수 있는 코드들과 어떤 것이 가능한지에 대해서 자세하게 적혀져있다. 

여러 스트리밍들에 대해서 여러 메소드들에 대한 자세한 설명, 그리고 

마지막으로...

스파크 스트리밍과 스칼라를 아는 상태를 전제로 책을 집필한듯해보였고, 대부분의 예제와 스파크를 어느정도 아는 상태에서 이 책을 보면 훨씬 더 좋은 내용들이 많이 들어있을거라고 생각한다. 내가 빅데이터와 스트리밍이 필요할정도로 규모가 큰 아키텍쳐를 다뤄보았던 경험이 없어서 크게 더 와닿지 않았던 것이 더 좋은 서평을 쓰기에 스스로의 실력이 좀 벅찼던 것이 제일 아쉬웠다. 

 

 

'Backend' 카테고리의 다른 글

⌜처음 배우는 네트워크 보안⌟ 서평  (0) 2021.12.26
포스트맨으로 테스트하던 나에게  (0) 2021.10.05