Model Monitoring 이란 무엇인가?!
모델 서빙 이후 Model Monitoring 이 필요하며 이를 위한 도구는 무엇이 있을까?
The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction, IEEE, Google
(ML 테스트 점수: ML 생산 준비 및 기술 부채 감소를 위한 루브릭, IEEE, Google)
Monotor 1: Dependency changes result in notification. 종속성 변경으로 인해 알림이 표시됨
Monotor 2: Data invariants hold in training and serving inputs. 데이터 불변량은 학습 및 제공 입력에 유지
Monotor 3: Training and serving features compute the same values. 학습 및 제공 기능은 동일한 값을 계산
Monotor 4: Models are not too stale. 모델이 너무 오래되지 않음
Monotor 5: The model is numerically stable. 모델이 수치적으로 안정적
Monotor 6: The model has not experienced dramatic or slow-leak regressions in training speed, serving latency, throughput, or RAM usage. 모델은 훈련 속도, 서빙 대기 시간, 처리량 또는 RAM 사용량에서 극적이거나 느린 누출 회귀를 경험하지 않음
Monotor 7: The model has not experienced a regression in prediction quality on served data. 모델은 제공된 데이터에 대한 예측 품질의 회귀를 경험하지 않음
서비스 제공 방식
- ML 관련
- Input Data Distribution
- Feature Distribution
- Output Data Distribution
- Performance (Evaluation)
- Model Stability
...
- Ops 관련
- Request Latency
- Request Error Rate
- CPU, Memory Utilization
- Disk I/O
- Network Traffic
소프트웨어 개발과는 달리 ML 서비스 모니터링은 고려해야 할 사항들이 많다 ㅠㅠ
모델 모니터링을 위한 오픈소스: 어떤 문제를 해결할지, 어떤 요구사항을 처리할지, 이해관계자가 중요시하는 것은 등등을 고려해야 한다!
- Prometheus, Grafana, Grafana loki, Thanos
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
패스트캠퍼스 바로가기: https://bit.ly/37BpXiC
'머신러닝 서비스 구축을 위한 실전 MLOps 올인원 패키지 Online' 카테고리의 다른 글
[패스트캠퍼스 챌린지 13일차] Prometheus & Grafana 실습 (0) | 2022.02.05 |
---|---|
[패스트캠퍼스 챌린지 12일차] Prometheus & Grafana (0) | 2022.02.04 |
[패스트캠퍼스 챌린지 10일차] Seldon Core 실습 (0) | 2022.02.02 |
[패스트캠퍼스 챌린지 09일차] 모델 서빙을 위한 Flask 활용 (0) | 2022.02.01 |
[패스트캠퍼스 챌린지 08일차] Flask (0) | 2022.01.31 |