Algoritmo k-nearest neighbors (k-NN) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Algoritmo k-nearest neighbors (k-NN)

O algoritmo SageMaker de k-vizinhos mais próximos (k-NN) da Amazon é um algoritmo baseado em índices. Ele usa um método não paramétrico para classificação ou regressão. Para problemas de classificação, o algoritmo consulta os k pontos que estão mais próximos do ponto de amostragem e retorna o rótulo mais utilizado da sua classe como o rótulo previsto. Para problemas de regressão, o algoritmo consulta os k pontos mais próximos do ponto de amostragem e retorna a média de seus valores de recursos como o valor previsto.

O treinamento com o algoritmo k-NN possui três etapas: amostragem, redução de dimensão e criação do índice. A amostragem reduz o tamanho do conjunto de dados inicial para que ele caiba na memória. Para a redução da dimensão, o algoritmo diminui a dimensão do recurso dos dados para reduzir a área de ocupação do modelo k-NN na latência de memória e da inferência. Fornecemos dois métodos de redução da dimensão: a projeção aleatória e a transformação rápida de Johnson-Lindenstrauss. Normalmente, você usa a redução de dimensão para conjuntos de dados altamente dimensionais (d > 1000) para evitar a "maldição da dimensionalidade" que perturba as análises estatísticas de dados que se tornam esparsos à medida que a dimensionalidade aumenta. O principal objetivo do treinamento do k-NN é construir o índice. Esse índice permite pesquisas eficientes de distâncias entre pontos cujos valores ou rótulos de classe ainda não foram determinados e dos k pontos mais próximos a serem usados para inferência.

Interface de entrada/saída para o algoritmo k-NN

SageMaker O k-NN suporta canais de dados de treinamento e teste.

  • Use um canal de treinamento para os dados que você deseja amostrar e construir no índice k-NN.

  • Use um canal de teste para emitir pontuações em arquivos de log. Essas pontuações são listadas com uma linha por minilote: precisão para classifier, erro quadrático médio (mse) para regressor da pontuação.

Para entradas de treinamento, k-NN oferece suporte aos formatos de dados text/csv e application/x-recordio-protobuf. Para o tipo de entrada text/csv, as primeiras label_size colunas são interpretadas como o vetor de rótulo dessa linha. É possível usar o modo de Arquivo ou de Pipe para treinar modelos em dados formatados como recordIO-wrapped-protobuf ou CSV.

Para entradas de inferência, k-NN oferece suporte aos formatos de dados application/json, application/x-recordio-protobuf e text/csv. O formato text/csv aceita um label_size e um parâmetro de codificação. Ele assume uma codificação label_size de 0 e uma codificação de UTF -8.

Para saídas de inferência, k-NN oferece suporte aos formatos de dados application/json e application/x-recordio-protobuf. Esses dois formatos de dados também oferecem suporte a um modo de saída detalhado. No modo de saída detalhada, o API fornece os resultados da pesquisa com o vetor de distâncias classificado do menor para o maior e os elementos correspondentes no vetor de rótulos.

Para transformação em lote, o k-NN oferece suporte ao formato de dados application/jsonlines para a entrada e a saída. Veja a seguir um exemplo de entrada:

content-type: application/jsonlines {"features": [1.5, 16.0, 14.0, 23.0]} {"data": {"features": {"values": [1.5, 16.0, 14.0, 23.0]}}

Veja a seguir um exemplo de saída:

accept: application/jsonlines {"predicted_label": 0.0} {"predicted_label": 2.0}

Para obter mais informações sobre formatos de arquivo de entrada e saída, consulte Formatos de dados para entrada de treinamento de k-NN para treinamento, Formatos de resposta e solicitação para k-NN para inferência e os Blocos de anotações de amostra de k-NN.

Blocos de anotações de amostra de k-NN

Para um exemplo de caderno que usa o algoritmo SageMaker k-Nearest Neighbor para prever os tipos de cobertura selvagem a partir de dados geológicos e de serviços florestais, consulte o K-Nearest Neighbor Covertype.

Use uma instância do notebook Jupyter para executar o exemplo em. SageMaker Para saber como criar e abrir uma instância do notebook Jupyter em SageMaker, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância de notebook e abri-la, selecione a guia SageMaker Exemplos para ver uma lista de todos os notebooks de SageMaker exemplo. Encontre blocos de anotações do K-Nearest Neighbor na seção Introdução aos algoritmos do Amazon. Para abrir um bloco de anotações, clique em sua guia Uso e selecione Criar cópia.

EC2Recomendação de instância para o algoritmo k-NN

Recomendamos treinar em uma CPU instância (como ml.m5.2xlarge) ou em uma instância. GPU O algoritmo k-NN oferece suporte às famílias de instâncias P2, P3, G4dn e G5 para treinamento e inferênciaGPU.

As solicitações de inferência CPUs geralmente têm uma latência média menor do que as solicitações de GPUs porque há uma sobrecarga na CPU-to-GPU comunicação quando você usa GPU hardware. No entanto, GPUs geralmente têm maior produtividade para lotes maiores.