Skip to content

DataDev

KNN

dmenezesgabriel/datadev

DataDev

dmenezesgabriel/datadev

Home
Home
- DataDev
Notes
Notes
- Data Engineering
  Data Engineering
  - Types of data
  - Properties of data
  - Data Layers
  - Storage Solutions
  - ACID
  - ETL
  - Data Sources
  - SQL Databases
    SQL Databases
    
    Databases
    
    SQL Commands
- Machine Learning
  Machine Learning
  - CRISP-DM
  - Design Principles
  - Requirements Gathering
  - Data Preprocessing / EDA
    Data Preprocessing / EDA
    
    Missing data
    
    Handling outliers
    
    Normalization & Scaling
    
    Unbalanced data
    
    Shuffling
  - Feature Engineering
    Feature Engineering
    
    Features
    
    Feature Engineering Types
    
    Feature Creation
    Feature Creation
    
    Encoding
    
    Binning
    
    Feature Extraction
    Feature Extraction
    
    PCA
  - Feature Store
  - Model Training
    Model Training
    
    Training
    
    Algorithms
    Algorithms
    
    KNN KNN
    Table of contents
    
    Hyperparameters
    
    K-Means
    
    TD-IDF
    
    Factorization Machines
    
    Ensembles
    Ensembles
    
    Ensemble methods
    
    XGBoost
    
    LightGBM
    
    Deep Learning
    Deep Learning
    
    Activation Functions
    
    Convolutional Neural Networks
    
    Recurrent Neural Networks
    
    Parameter Tunning
    
    Problems
    Problems
    
    Bias
    
    Overfitting
  - Model Tuning
  - Model Evaluation
    Model Evaluation
    
    Confusion Matrix
    
    Metrics
    
    K-Fold Cross Validation
  - Optimization
  - MLOps
    MLOps
    
    Lifecycle
    
    MLflow
    
    Pipelines
    
    Model Deployment
    
    Model Monitoring
  - Cloud
    Cloud
    
    AWS Sagemaker
    
    AWS ML Services
- Generative AI
  Generative AI
- Software Engineering
  Software Engineering
  - Asymptotic Notations
  - Software Design Principles
    Software Design Principles
    
    SOLID
  - Infrastructure
    Infrastructure
    
    API Gateway
    
    Reverse Proxy
    
    Load Balancer
    
    Service Mesh
    
    Kubernetes
    
    AWS ECS
    
    Side Car
  - System Architecture
    System Architecture
    
    Monolith
    
    Microservices
  - Communication Styles
    Communication Styles
    
    REST
  - Application architecture
    Application architecture
    
    Hexagonal Architecture
  - Deployment Strategies
    Deployment Strategies
    
    Rolling Deployment
Cookbook
Cookbook
- Python
  Python
  - Data Structures & Algorithms
    Data Structures & Algorithms
    
    Lists & Stacks
    
    Strings
    
    Tuples
    
    Sets & Hashsets
    
    Dictionaries & Hasmaps
    
    Singly Linked Lists
    
    Doubly Linked Lists
    
    Queue
    
    Recursion
    
    Binary Search
    
    Binary Tree
    
    Binary Search Tree
    
    Heaps & Priority Queues
    
    Sorting
  - LeetCode
    LeetCode
    
    HashMap
    HashMap
    
    Two Sum
    
    Valid Anagram
    
    Contains Duplicate
    
    Two Sum
    
    Top K Frequent Elements
    
    Two Pointers
    Two Pointers
    
    Valid Palindrome
    
    Two Sum 2
    
    Container With Most Water
    
    Sliding Window
    Sliding Window
    
    Best Time to Buy and Sell
    
    Length of Longest Substring
    
    Stack
    Stack
    
    Valid parenthesis
    
    Binary search
    Binary search
    
    Binary Search
  - Essentials
    Essentials
    
    Math
    
    Is
    
    Iterators
    
    Generators
    
    Functions
    
    Decorators
    
    Classes
    
    Logging
    
    Process & Threads
    
    Memory Management
  - Design Patters
    Design Patters
    
    Singleton
    
    Multiton
    
    Strategy
  - Databases
    Databases
    
    SQLite
  - Data Engineering
    Data Engineering
    
    Spark
  - Data Analysis
    Data Analysis
    
    Numpy
    
    Pandas
    
    DuckDB
    
    Matplotlib
    
    Seaborn
    
    Altair
  - Linear Algebra
    Linear Algebra
    
    Vector & Matrix
  - Probability
    Probability
    
    Distribution Functions
    
    Bernoulli Distribution
    
    Binomial Distribution
    
    Poisson Distribution
    
    Normal Distribution
    
    Log Normal Distribution
    
    Pareto Distribution
    
    Central Limit Theorem
    
    Estimates
  - Descriptive Statistic
    Descriptive Statistic
    
    Percentile
    
    Covariance & Correlation
  - Inferential Statistic
    Inferential Statistic
    
    Hypothesis Testing
    
    P Value
  - Machine Learning
    Machine Learning
    
    Feature engineering
    
    ML ZoomCamp
    ML ZoomCamp
    
    Car price prediction
    
    Churn prediction
    
    Credit risk score
    
    Fashion Classification
    
    Taxi Trip Duration
    
    KNN
    KNN
    
    Iris Classification
    
    Cat & Dog Classification
    
    California Housing Price Regression
    
    Naive Bayes
    Naive Bayes
    
    Gaussian classification
    
    Multinomial classification
  - MLOps
    MLOps
    
    Model Registry
    Model Registry
    
    Mlflow
    
    Training Pipeline
    Training Pipeline
    
    Taxi Trip Duration
    
    Deployment
    Deployment
    
    Churn Prediction FastAPI
    
    Churn Prediction FastAPI MLflow
  - Generative AI
    Generative AI
    
    LLM ZoomCamp
    LLM ZoomCamp
    
    Search Engines
    
    Retrieval & Search
    
    Vector Search with Qdrant
    
    Evaluation
    
    Completion
    
    Structured Output
    
    Tools
    
    Retrieval
    
    Evaluation - Unit Testing
    
    Control Flow
    
    Knowledge
    Knowledge
    
    Extraction (Docling)
    
    Agent
    
    MCP
    MCP
    
    Stdio Client
    
    SSE Client
    
    Streamable HTTP Client
    
    LLM MCP Integration
    
    Transformers
  - Web
    Web
    
    Flask
    Flask
    
    Hello World
    
    Todo API
    
    Churn Prediction API
    
    Streamlit
    Streamlit
    
    Hello World
  - Infrastructure As Code
    Infrastructure As Code
    
    Terraform Resource
  - Cloud
    Cloud
    
    AWS Lambda Churn Prediction
    
    AWS Lambda Fashion Classification
Blog
Blog
- Blog
- Archive
  Archive
  - 2025
- Categories
  Categories
  - Blog

KNN¶

K-Nearest Neighbors (KNN) is a simple, instance-based learning algorithm used for classification and regression tasks. It operates on the principle that similar instances are likely to have similar outcomes.

Both classification and regression tasks.
Classification:
Find the K closest points to a sample point and return the most frequent label
Regression:
Find the K closest points to a sample point and return the average of their values

Hyperparameters¶

K: The number of nearest neighbors to consider when making predictions. A larger K value can smooth out noise but may also overlook local patterns.
sample_size: The number of samples to use from the training data when making predictions. A larger sample size can improve accuracy but may increase computation time.