KNN (K-Nearest Neighbors)

O KNN é um algoritmo de aprendizado supervisionado usado para problemas de classificação e regressão. Ele é baseado na ideia de que objetos semelhantes estão próximos uns dos outros no espaço de características. É válido ressaltar que o KNN é bom para conjuntos de dados pequenos e médios, e é simples de entender e implementar.

Funcionamento

Escolha do K: O primeiro passo é escolher o número de vizinhos (K) que serão considerados para a classificação ou regressão. Este passo é crucial, pois um valor muito pequeno pode tornar o modelo sensível ao ruído, enquanto um valor muito grande pode suavizar demais as fronteiras de decisão. Para que não haja uma escolha do K equivocada, faz-se a técnica de validação cruzada.
Cálculo da Distância: Para classificar um novo ponto, o algoritmo calcula a distância entre esse ponto e todos os pontos do conjunto de treinamento. As métricas de distâncias mais comuns são a Euclidiana, Manhattan e Minkowski.
Identificação dos Vizinhos: O algoritmo seleciona os K pontos mais próximos do conjunto de treinamento.
Classificação ou Regressão:
Classificação: O rótulo do novo ponto é determinado pelos rótulos frequentes dos K vizinhos. (Ou seja, a moda dos rótulos)
Regressão: O valor do novo ponto é determinado pela média (ou mediana) dos valores dos K vizinhos.

Vantagens do KNN ✅

Simplicidade: O KNN é fácil de entender e implementar.
Flexibilidade: Pode ser usado para classificação e regressão.
Não paramétrico: Não faz suposições sobre a distribuição dos dados.

Desvantagens do KNN ❌

Custo computacional: O KNN pode ser lento, especialmente com grandes conjuntos de dados, pois precisa calcular a distância de todos os pontos.
Sensibilidade a ruídos: O algoritmo pode ser afetado por outliers e ruídos nos dados.
Escolha do K: A escolha do valor de K pode impactar significativamente o desempenho do modelo.

Métricas de Avaliação

As métricas de avaliação para KNN incluem:

Acurácia: Proporção de previsões corretas em relação ao total de previsões.
Precisão: Proporção de verdadeiros positivos em relação ao total de positivos previstos.
Revocação: Proporção de verdadeiros positivos em relação ao total de positivos reais.
F1-Score: Média harmônica entre precisão e revocação. Util quando há um desequilíbrio entre classes.
Matriz de Confusão: Tabela que mostra o desempenho do modelo, detalhando verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.