Skip to content

DataDev

Parameter Tunning

dmenezesgabriel/datadev

DataDev

dmenezesgabriel/datadev

Home
Home
- DataDev
Notes
Notes
- Data Engineering
  Data Engineering
  - Types of data
  - Properties of data
  - Data Layers
  - Storage Solutions
  - ACID
  - ETL
  - Data Sources
  - SQL Databases
    SQL Databases
    
    Databases
    
    SQL Commands
- Machine Learning
  Machine Learning
  - CRISP-DM
  - Design Principles
  - Requirements Gathering
  - Data Preprocessing / EDA
    Data Preprocessing / EDA
    
    Missing data
    
    Handling outliers
    
    Normalization & Scaling
    
    Unbalanced data
    
    Shuffling
  - Feature Engineering
    Feature Engineering
    
    Features
    
    Feature Engineering Types
    
    Feature Creation
    Feature Creation
    
    Encoding
    
    Binning
    
    Feature Extraction
    Feature Extraction
    
    PCA
  - Feature Store
  - Model Training
    Model Training
    
    Training
    
    Algorithms
    Algorithms
    
    KNN
    
    K-Means
    
    TD-IDF
    
    Factorization Machines
    
    Ensembles
    Ensembles
    
    Ensemble methods
    
    XGBoost
    
    LightGBM
    
    Deep Learning
    Deep Learning
    
    Activation Functions
    
    Convolutional Neural Networks
    
    Recurrent Neural Networks
    
    Parameter Tunning Parameter Tunning
    Table of contents
    
    Hyperparameters
    
    Learning Rate
    
    Batch Size
    
    Problems
    Problems
    
    Bias
    
    Overfitting
  - Model Tuning
  - Model Evaluation
    Model Evaluation
    
    Confusion Matrix
    
    Metrics
    
    K-Fold Cross Validation
  - Optimization
  - MLOps
    MLOps
    
    Lifecycle
    
    MLflow
    
    Pipelines
    
    Model Deployment
    
    Model Monitoring
  - Cloud
    Cloud
    
    AWS Sagemaker
    
    AWS ML Services
- Generative AI
  Generative AI
- Software Engineering
  Software Engineering
  - Asymptotic Notations
  - Software Design Principles
    Software Design Principles
    
    SOLID
  - Infrastructure
    Infrastructure
    
    API Gateway
    
    Reverse Proxy
    
    Load Balancer
    
    Service Mesh
    
    Kubernetes
    
    AWS ECS
    
    Side Car
  - System Architecture
    System Architecture
    
    Monolith
    
    Microservices
  - Communication Styles
    Communication Styles
    
    REST
  - Application architecture
    Application architecture
    
    Hexagonal Architecture
  - Deployment Strategies
    Deployment Strategies
    
    Rolling Deployment
Cookbook
Cookbook
- Python
  Python
  - Data Structures & Algorithms
    Data Structures & Algorithms
    
    Lists & Stacks
    
    Strings
    
    Tuples
    
    Sets & Hashsets
    
    Dictionaries & Hasmaps
    
    Singly Linked Lists
    
    Doubly Linked Lists
    
    Queue
    
    Recursion
    
    Binary Search
    
    Binary Tree
    
    Binary Search Tree
    
    Heaps & Priority Queues
    
    Sorting
  - LeetCode
    LeetCode
    
    HashMap
    HashMap
    
    Two Sum
    
    Valid Anagram
    
    Contains Duplicate
    
    Two Sum
    
    Top K Frequent Elements
    
    Two Pointers
    Two Pointers
    
    Valid Palindrome
    
    Two Sum 2
    
    Container With Most Water
    
    Sliding Window
    Sliding Window
    
    Best Time to Buy and Sell
    
    Length of Longest Substring
    
    Stack
    Stack
    
    Valid parenthesis
    
    Binary search
    Binary search
    
    Binary Search
  - Essentials
    Essentials
    
    Math
    
    Is
    
    Iterators
    
    Generators
    
    Functions
    
    Decorators
    
    Classes
    
    Logging
    
    Process & Threads
    
    Memory Management
  - Design Patters
    Design Patters
    
    Singleton
    
    Multiton
    
    Strategy
  - Databases
    Databases
    
    SQLite
  - Data Engineering
    Data Engineering
    
    Spark
  - Data Analysis
    Data Analysis
    
    Numpy
    
    Pandas
    
    DuckDB
    
    Matplotlib
    
    Seaborn
    
    Altair
  - Linear Algebra
    Linear Algebra
    
    Vector & Matrix
  - Probability
    Probability
    
    Distribution Functions
    
    Bernoulli Distribution
    
    Binomial Distribution
    
    Poisson Distribution
    
    Normal Distribution
    
    Log Normal Distribution
    
    Pareto Distribution
    
    Central Limit Theorem
    
    Estimates
  - Descriptive Statistic
    Descriptive Statistic
    
    Percentile
    
    Covariance & Correlation
  - Inferential Statistic
    Inferential Statistic
    
    Hypothesis Testing
    
    P Value
  - Machine Learning
    Machine Learning
    
    Feature engineering
    
    ML ZoomCamp
    ML ZoomCamp
    
    Car price prediction
    
    Churn prediction
    
    Credit risk score
    
    Fashion Classification
    
    Taxi Trip Duration
    
    KNN
    KNN
    
    Iris Classification
    
    Cat & Dog Classification
    
    California Housing Price Regression
    
    Naive Bayes
    Naive Bayes
    
    Gaussian classification
    
    Multinomial classification
  - MLOps
    MLOps
    
    Model Registry
    Model Registry
    
    Mlflow
    
    Training Pipeline
    Training Pipeline
    
    Taxi Trip Duration
    
    Deployment
    Deployment
    
    Churn Prediction FastAPI
    
    Churn Prediction FastAPI MLflow
  - Generative AI
    Generative AI
    
    LLM ZoomCamp
    LLM ZoomCamp
    
    Search Engines
    
    Retrieval & Search
    
    Vector Search with Qdrant
    
    Evaluation
    
    Completion
    
    Structured Output
    
    Tools
    
    Retrieval
    
    Evaluation - Unit Testing
    
    Control Flow
    
    Knowledge
    Knowledge
    
    Extraction (Docling)
    
    Agent
    
    MCP
    MCP
    
    Stdio Client
    
    SSE Client
    
    Streamable HTTP Client
    
    LLM MCP Integration
    
    Transformers
  - Web
    Web
    
    Flask
    Flask
    
    Hello World
    
    Todo API
    
    Churn Prediction API
    
    Streamlit
    Streamlit
    
    Hello World
  - Infrastructure As Code
    Infrastructure As Code
    
    Terraform Resource
  - Cloud
    Cloud
    
    AWS Lambda Churn Prediction
    
    AWS Lambda Fashion Classification
Blog
Blog
- Blog
- Archive
  Archive
  - 2025
- Categories
  Categories
  - Blog

Tunning Neural Networks¶

Hyperparameters¶

Learning Rate¶

We start at some random point, and sample difference solutions (weights) seeking to minimize some cost function over many epochs. How far apart these samples are is the learning rate.

Neural Networks are trained by gradient descendent algorithms.
too high learning rate means we might overshoot the optimal solution.
too low learning rate means we might take too long to get the optimal solution.

Batch Size¶

The batch size is the number of training examples utilized in one iteration.

Small batch sizes tend to not get stuck in local minima, but take longer to converge.
Large batch sizes can converge on the wrong solution at random