데이터/데이터 엔지니어링1 빅데이터 파이프라인 총정리 (Hive, Spark, Airflow, Hadoop, Oozie) 안녕하세요. 개발감자 박그냥입니다. 국내 기업에서 가장 많이 사용하는 빅데이터 파이프라인에 대해서 정리해보는 시간을 가져보도록 하겠습니다. 빅데이터 파이프라인은 왜 필요한 걸까요? 누구나 데이터를 쉽게 접근하여 사용하도록 하려면 기업은 빅데이터 플랫폼을 만들어 제공합니다. 기업의 다양한 서비스에서 데이터를 수집하고 이를 분석하고 서비스 개선에 활용하기도 합니다. 그럼 하나씩 차근 차근 정리해보도록 할까요? 위의 그림을 보면 빅데이터 시스템에 대한 전반적인 오픈소스 빅데이터/ML 아키텍쳐를 확인할 수 있습니다. 데이터를 저장하고 처리하고 분석하고 서빙하는 과정에서 어떤 오픈 소스들이 사용되는지 정리해놓은 것입니다. 빅데이터 처리 과정은 데이터 소스 > 수집 > 저장 > 처리 > 분석 > 표현과 같습니다. .. 2023. 12. 17. 이전 1 다음