
Contents
- 배치 데이터 파이라인 구축 개요
- Dataproc에서 Spark 실행하기
- Dataflow에서 서버리스 데이터 처리하기
- Cloud Data Fusion과 Clpoud Composer로 데이터 파이프라인 관리하기
1. 배치 데이터 파이라인 구축 개요
EL, ELT, ETL
- EL : 데이터가 이미 Clean하고 Correct한 경우에만 사용.
Cloud Composer이나 Cloud Functions에서 EL작업 자동화가능
- ELT : 미래에 데이터를 어떻게 쓸지 모를 때(변환 방법을 모를 때) 사용.
EL과정을 모두 거치고 난 다음, 데이터 셋에 무결성 검사 or SQL 쿼리 실행
- ETL : 외부 API를 호출, SQL로 구현하기 복잡한 논리를 구현하고자 할 때, or 스트리밍 데이터
Pub/Sub, Cloud Storage에서 추출, Dataflow, DataProc에서 처리, BigQuery에 로드
데이터 품질
- Valid : 데이터가 우리 비즈니스 규칙에 맞지 않음
- Accurate : 데이터가 객관적인 트루값이 아님
- Complete : 모든 데이터셋이 완벽하게 생성, 저장, 적재되지 않음
- Consistent : 데이터를 동일한 계산, but 다른 결과값
- Uniform : 데이터를 가져오는데 오해가 발생할 수 있음
→ 빅쿼리에서 SQL 구문을 이용해 처리하면 된다.