ApacheSpark 2

"Spark 파이프라인, 느려터졌던 이유는? — 튜닝 말고 먼저 보는 것들"

안녕하세요, Andrew입니다. 데이터 엔지니어라면 한 번쯤 이런 상황에 직면해 보셨을 겁니다. "분명 어제까지 잘 돌아가던 파이프라인인데, 오늘은 왜 이렇게 느리지?", "로그를 보니 작업 시간이 평소보다 2~3배는 더 걸렸네?"이럴 때 가장 먼저 떠오르는 해결책은 무엇인가요? 아마 많은 분들이 "클러스터 스펙을 올려야 하나?", "노드 수를 늘려야 하나?" 하고 생각하실 겁니다. 저 역시 그랬으니까요. 하지만 경험상, 돈을 더 쓰기 전에 먼저 확인해야 할 것들이 있습니다. 오늘은 Spark 파이프라인이 느려터졌을 때, 튜닝보다 먼저 봐야 할 구조적인 문제들과 그 해결책에 대해 이야기해 보겠습니다.1. 클러스터를 키우기 전에: 돈보다 먼저 봐야 할 것들작업 시간이 길어지는 현상을 발견했을 때, 클러스터..

"Spark도 마이크로서비스를 품다 — Spark Connect의 시대”

안녕하세요, Andrew입니다. 현대 데이터 아키텍처는 점점 더 유연하고 확장 가능한 형태를 요구하고 있습니다. 특히 마이크로서비스 아키텍처는 이러한 요구사항을 충족하며 많은 기업에서 도입을 고려하고 있죠. 그렇다면 대규모 데이터 처리의 핵심인 Apache Spark는 이러한 변화에 어떻게 발맞추고 있을까요?오늘은 Spark 4.0의 주요 기능 중 하나인 Spark Connect가 어떻게 데이터 파이프라인을 마이크로서비스 형태로 구현하는 데 기여하는지, 그 구조와 기존 Spark와의 차이점, 그리고 실전 활용법에 대해 자세히 알아보겠습니다.1. Spark Connect란 무엇인가요?Spark Connect는 Apache Spark의 새로운 기능으로, 클라이언트와 서버가 분리된 아키텍처를 도입하여 Spar..

반응형