Skip to content

DataDev

Requirements Gathering

dmenezesgabriel/datadev

DataDev

dmenezesgabriel/datadev

Home
Home
- DataDev
Notes
Notes
- Data Engineering
  Data Engineering
  - Types of data
  - Properties of data
  - Data Layers
  - Storage Solutions
  - ACID
  - ETL
  - Data Sources
  - SQL Databases
    SQL Databases
    
    Databases
    
    SQL Commands
- Machine Learning
  Machine Learning
  - CRISP-DM
  - Design Principles
  - Requirements Gathering Requirements Gathering
    Table of contents
    
    1. Process Data (Collect → Preprocess → Feature Engineering)
    
    2. Feature Store (Online / Offline)
    
    3. Develop Model (Train, Tune, Evaluate)
    
    4. Deploy (Batch / Real-Time Inference)
    
    5. Monitor (Model + Data + System)
    
    6. Feedback Loop (Retraining / Continuous Learning)
    
    7. Governance (Registry, Lineage, Compliance)
  - Data Preprocessing / EDA
    Data Preprocessing / EDA
    
    Missing data
    
    Handling outliers
    
    Normalization & Scaling
    
    Unbalanced data
    
    Shuffling
  - Feature Engineering
    Feature Engineering
    
    Features
    
    Feature Engineering Types
    
    Feature Creation
    Feature Creation
    
    Encoding
    
    Binning
    
    Feature Extraction
    Feature Extraction
    
    PCA
  - Feature Store
  - Model Training
    Model Training
    
    Training
    
    Algorithms
    Algorithms
    
    KNN
    
    K-Means
    
    TD-IDF
    
    Factorization Machines
    
    Ensembles
    Ensembles
    
    Ensemble methods
    
    XGBoost
    
    LightGBM
    
    Deep Learning
    Deep Learning
    
    Activation Functions
    
    Convolutional Neural Networks
    
    Recurrent Neural Networks
    
    Parameter Tunning
    
    Problems
    Problems
    
    Bias
    
    Overfitting
  - Model Tuning
  - Model Evaluation
    Model Evaluation
    
    Confusion Matrix
    
    Metrics
    
    K-Fold Cross Validation
  - Optimization
  - MLOps
    MLOps
    
    Lifecycle
    
    MLflow
    
    Pipelines
    
    Model Deployment
    
    Model Monitoring
  - Cloud
    Cloud
    
    AWS Sagemaker
    
    AWS ML Services
- Generative AI
  Generative AI
- Software Engineering
  Software Engineering
  - Asymptotic Notations
  - Software Design Principles
    Software Design Principles
    
    SOLID
  - Infrastructure
    Infrastructure
    
    API Gateway
    
    Reverse Proxy
    
    Load Balancer
    
    Service Mesh
    
    Kubernetes
    
    AWS ECS
    
    Side Car
  - System Architecture
    System Architecture
    
    Monolith
    
    Microservices
  - Communication Styles
    Communication Styles
    
    REST
  - Application architecture
    Application architecture
    
    Hexagonal Architecture
  - Deployment Strategies
    Deployment Strategies
    
    Rolling Deployment
Cookbook
Cookbook
- Python
  Python
  - Data Structures & Algorithms
    Data Structures & Algorithms
    
    Lists & Stacks
    
    Strings
    
    Tuples
    
    Sets & Hashsets
    
    Dictionaries & Hasmaps
    
    Singly Linked Lists
    
    Doubly Linked Lists
    
    Queue
    
    Recursion
    
    Binary Search
    
    Binary Tree
    
    Binary Search Tree
    
    Heaps & Priority Queues
    
    Sorting
  - LeetCode
    LeetCode
    
    HashMap
    HashMap
    
    Two Sum
    
    Valid Anagram
    
    Contains Duplicate
    
    Two Sum
    
    Top K Frequent Elements
    
    Two Pointers
    Two Pointers
    
    Valid Palindrome
    
    Two Sum 2
    
    Container With Most Water
    
    Sliding Window
    Sliding Window
    
    Best Time to Buy and Sell
    
    Length of Longest Substring
    
    Stack
    Stack
    
    Valid parenthesis
    
    Binary search
    Binary search
    
    Binary Search
  - Essentials
    Essentials
    
    Math
    
    Is
    
    Iterators
    
    Generators
    
    Functions
    
    Decorators
    
    Classes
    
    Logging
    
    Process & Threads
    
    Memory Management
  - Design Patters
    Design Patters
    
    Singleton
    
    Multiton
    
    Strategy
  - Databases
    Databases
    
    SQLite
  - Data Engineering
    Data Engineering
    
    Spark
  - Data Analysis
    Data Analysis
    
    Numpy
    
    Pandas
    
    DuckDB
    
    Matplotlib
    
    Seaborn
    
    Altair
  - Linear Algebra
    Linear Algebra
    
    Vector & Matrix
  - Probability
    Probability
    
    Distribution Functions
    
    Bernoulli Distribution
    
    Binomial Distribution
    
    Poisson Distribution
    
    Normal Distribution
    
    Log Normal Distribution
    
    Pareto Distribution
    
    Central Limit Theorem
    
    Estimates
  - Descriptive Statistic
    Descriptive Statistic
    
    Percentile
    
    Covariance & Correlation
  - Inferential Statistic
    Inferential Statistic
    
    Hypothesis Testing
    
    P Value
  - Machine Learning
    Machine Learning
    
    Feature engineering
    
    ML ZoomCamp
    ML ZoomCamp
    
    Car price prediction
    
    Churn prediction
    
    Credit risk score
    
    Fashion Classification
    
    Taxi Trip Duration
    
    KNN
    KNN
    
    Iris Classification
    
    Cat & Dog Classification
    
    California Housing Price Regression
    
    Naive Bayes
    Naive Bayes
    
    Gaussian classification
    
    Multinomial classification
  - MLOps
    MLOps
    
    Model Registry
    Model Registry
    
    Mlflow
    
    Training Pipeline
    Training Pipeline
    
    Taxi Trip Duration
    
    Deployment
    Deployment
    
    Churn Prediction FastAPI
    
    Churn Prediction FastAPI MLflow
  - Generative AI
    Generative AI
    
    LLM ZoomCamp
    LLM ZoomCamp
    
    Search Engines
    
    Retrieval & Search
    
    Vector Search with Qdrant
    
    Evaluation
    
    Completion
    
    Structured Output
    
    Tools
    
    Retrieval
    
    Evaluation - Unit Testing
    
    Control Flow
    
    Knowledge
    Knowledge
    
    Extraction (Docling)
    
    Agent
    
    MCP
    MCP
    
    Stdio Client
    
    SSE Client
    
    Streamable HTTP Client
    
    LLM MCP Integration
    
    Transformers
  - Web
    Web
    
    Flask
    Flask
    
    Hello World
    
    Todo API
    
    Churn Prediction API
    
    Streamlit
    Streamlit
    
    Hello World
  - Infrastructure As Code
    Infrastructure As Code
    
    Terraform Resource
  - Cloud
    Cloud
    
    AWS Lambda Churn Prediction
    
    AWS Lambda Fashion Classification
Blog
Blog
- Blog
- Archive
  Archive
  - 2025
- Categories
  Categories
  - Blog

✅ MLOps Requirements Gathering¶

1. Process Data (Collect → Preprocess → Feature Engineering)¶

2. Feature Store (Online / Offline)¶

💼 Business:
Is real-time prediction required?
What is the acceptable latency SLA?
🧠 Data Science:
Which features are needed online vs offline?
Are features point-in-time correct (no leakage)?
What is the required feature freshness?
Can features be reused across models?

3. Develop Model (Train, Tune, Evaluate)¶

💼 Business:
What is the minimum acceptable performance?
What is the current baseline (rules or human)?
How do model metrics map to business KPIs?
🧠 Data Science:
What evaluation metrics best reflect business impact?
How do we handle class imbalance?
Do we need explainability?
What validation strategy will be used?
Are experiments reproducible?

4. Deploy (Batch / Real-Time Inference)¶

💼 Business:
What latency is required (ms, seconds, hours)?
What is expected traffic volume?
What happens if the model fails?
🧠 Data Science:
Are training and inference features consistent?
Batch or real-time inference?
What are compute and model size constraints?
Do we need A/B testing or shadow deployment?

5. Monitor (Model + Data + System)¶

💼 Business:
What signals indicate business impact degradation?
How quickly must issues be detected and resolved?
🧠 Data Science:
How do we detect data drift?
How do we detect concept drift?
How do we monitor prediction distributions?
What alert thresholds are defined?
Do we monitor inputs, outputs, and performance?
Do we have ground truth feedback loops?

6. Feedback Loop (Retraining / Continuous Learning)¶

💼 Business:
How often should the model be updated?
What is the cost vs benefit of retraining?
Can users provide feedback?
🧠 Data Science:
How do we collect new labeled data?
Is retraining scheduled or triggered?
How do we prevent data leakage in retraining?
Are data, features, and models versioned?

7. Governance (Registry, Lineage, Compliance)¶

💼 Business:
Are there auditability requirements?
Who owns and is accountable for the model?
🧠 Data Science:
Can we trace model → data → code → features?
Are models versioned and reproducible?
Are training artifacts and metadata stored?