'ApacheSpark' 태그의 글 목록

ApacheSpark 2

"Spark 파이프라인, 느려터졌던 이유는? — 튜닝 말고 먼저 보는 것들"

안녕하세요, Andrew입니다. 데이터 엔지니어라면 한 번쯤 이런 상황에 직면해 보셨을 겁니다. "분명 어제까지 잘 돌아가던 파이프라인인데, 오늘은 왜 이렇게 느리지?", "로그를 보니 작업 시간이 평소보다 2~3배는 더 걸렸네?"이럴 때 가장 먼저 떠오르는 해결책은 무엇인가요? 아마 많은 분들이 "클러스터 스펙을 올려야 하나?", "노드 수를 늘려야 하나?" 하고 생각하실 겁니다. 저 역시 그랬으니까요. 하지만 경험상, 돈을 더 쓰기 전에 먼저 확인해야 할 것들이 있습니다. 오늘은 Spark 파이프라인이 느려터졌을 때, 튜닝보다 먼저 봐야 할 구조적인 문제들과 그 해결책에 대해 이야기해 보겠습니다.1. 클러스터를 키우기 전에: 돈보다 먼저 봐야 할 것들작업 시간이 길어지는 현상을 발견했을 때, 클러스터..

데이터 엔지니어링 2025.06.29

"Spark도 마이크로서비스를 품다 — Spark Connect의 시대”

안녕하세요, Andrew입니다. 현대 데이터 아키텍처는 점점 더 유연하고 확장 가능한 형태를 요구하고 있습니다. 특히 마이크로서비스 아키텍처는 이러한 요구사항을 충족하며 많은 기업에서 도입을 고려하고 있죠. 그렇다면 대규모 데이터 처리의 핵심인 Apache Spark는 이러한 변화에 어떻게 발맞추고 있을까요?오늘은 Spark 4.0의 주요 기능 중 하나인 Spark Connect가 어떻게 데이터 파이프라인을 마이크로서비스 형태로 구현하는 데 기여하는지, 그 구조와 기존 Spark와의 차이점, 그리고 실전 활용법에 대해 자세히 알아보겠습니다.1. Spark Connect란 무엇인가요?Spark Connect는 Apache Spark의 새로운 기능으로, 클라이언트와 서버가 분리된 아키텍처를 도입하여 Spar..

데이터 엔지니어링 2025.06.29

1

더보기

심리학 전공의 Data Engineer 이야기

안녕하세요, Andrew입니다. 저는 현재 MSP 회사에서 솔루션 아키텍트로 데이터 엔지니어링 분야에 재직 중입니다. 저의 학부 전공은 응용심리학입니다. 이후 빅데이터 분석의 매력에 이끌려 데이터 분야의 커리어를 결심하게 되었습니다. 이 블로그는 데이터 엔지니어링의 복잡한 개념들을 주니어 및 중급 개발자분들이 쉽게 이해하고 실무에 적용할 수 있도록 돕는 것을 목표로 합니다.

sparkconnect, 데이터품질, 사용자관리, 분산처리, 실무경험, 빅데이터, 데이터분석, 클라우드, 권한관리, geminicli, ApacheSpark, aws, 데이터엔지니어, IT트렌드, iam, ai엔지니어, AI, 데이터아키텍처, 데이터엔지니어링, 데이터파이프라인,

Today :
Yesterday :

티스토리툴바