쿠버네티스는 괜히 어렵고 멀게만 느껴진다. 하지만 온라인 강의의 장점은 내가 원하는 강의를 골라 들을 수 있다는 점! 그래서 오늘은 Data Management로 넘어왔다.
예전에 R을 기반으로 Decision Tree를 적용하여 모델링하였을 때의 기억이 난다. 단순히 코드를 짜고 모델을 돌리는 것이 끝이 아니었다. 재현성이 확보되어야 하는 것이 중요하다는 것을 업무를 진행하면서 뼈져리게 느꼈다. 역시 내가 생각하고 느끼는 건 다른이들에게도 같은 마음인가 보다. 특히 협업을 위한 팀 단위의 조직에서는 데이터 버전관리가 더 필요할 것이다.
Git을 업무에서 써 본적이 없어서 공부해야겠다는 생각에 과거에 Git을 잠깐 공부해본 적은 있었지만 실제로 써볼 일이 없어서 흐지부지되었었다. 하지만 이제는 업무에서 GitLab을 써야하는 상황이어서 피할 수가 없는 상황이 되었다.
e.g. Git, GitHub, GitLab, Bitbucket
Large Data를 버전 관리하려면?!
Git + DVC/Pachyderm/Delta Lake/Dolt
DVC (Data Version Control)
우리는 DVC 오픈소스를 다룰 거다.
그치만 DVC 사용하려면 Git, GitHub를 알아야 한다는 것 ㅎㅎㅎ
- 대부분의 스토리지와 호환 (Amazon S3, Google Drive, ...)
- GitHub 외의 GitLab, Bitbucket 등 대부분의 git 호스팅 서버와 연동
- Data Pipeline을 DAG로 관리
- Git 과 유사한 인터페이스
사전준비: 파이썬 설치, git 설치
DVC 설치
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
패스트캠퍼스 바로가기: https://bit.ly/37BpXiC
'머신러닝 서비스 구축을 위한 실전 MLOps 올인원 패키지 Online' 카테고리의 다른 글
[패스트캠퍼스 챌린지 07일차] Model Serving이란 (0) | 2022.01.30 |
---|---|
[패스트캠퍼스 챌린지 06일차] Model Management & MLFlow (0) | 2022.01.29 |
[패스트캠퍼스 챌린지 04일차] minikube 설치 (0) | 2022.01.27 |
[패스트캠퍼스 챌린지 03일차] 쿠버네티스 & YAML (0) | 2022.01.26 |
[패스트캠퍼스 챌린지 02일차] MLOps에서 도커, 쿠버네티스가 필요한 이유 & 도커 실습 (0) | 2022.01.25 |