Etapa 1. Execute o EDA e desenvolva o modelo inicial - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Etapa 1. Execute o EDA e desenvolva o modelo inicial

Nesta etapa, cientistas de dados realizam a análise exploratória de dados (EDA) para entender os dados e o caso de uso de ML. Em seguida, eles desenvolvem os modelos de ML (por exemplo, modelos de classificação e regressão) para resolver o problema em um determinado caso de uso. Durante o desenvolvimento do modelo, o cientista de dados geralmente faz suposições sobre entradas e saídas, como formatos de dados, ciclo de vida dos dados e locais de saída intermediária. Essas suposições devem ser documentadas para que possam ser usadas para verificação durante os testes de unidade na etapa 2.

Embora essa etapa se concentre no desenvolvimento de modelos, os cientistas de dados geralmente precisam escrever uma quantidade mínima de código auxiliar para pré-processamento, treinamento, avaliação e inferência. O cientista de dados deve ser capaz de executar esse código no ambiente de desenvolvimento. Também recomendamos fornecer argumentos de runtime opcionais para que esse código auxiliar possa ser configurado dinamicamente para ser executado em outros ambientes sem grandes alterações manuais. Isso irá acelera a integração entre o modelo e o pipeline nas etapas 2 e 3. Por exemplo, o código para ler os dados brutos deve ser encapsulado em funções para que os dados possam ser pré-processados de maneira consistente.

Recomendamos que você comece com uma estrutura como scikit-learn,, XGBoostPyTorch, Keras ou desenvolva o modelo TensorFlowde ML e seu código auxiliar. Por exemplo, o scikit-learn é uma biblioteca de ML gratuita e escrita em Python. Ele fornece uma convenção de API uniforme para objetos e inclui quatro objetos principais — estimador, preditor, transformador e modelo — que abrangem transformações leves nos dados, oferecem suporte à engenharia de atributos e rótulos e encapsulam as etapas de pré-processamento e modelagem. Esses objetos ajudam a evitar a proliferação de códigos clichê e evitam que dados de validação e teste vazem para o conjunto de dados de treinamento. Da mesma forma, cada estrutura de ML tem sua própria implementação dos principais artefatos de ML e recomendamos que você cumpra as convenções de API da estrutura selecionada ao desenvolver modelos de ML.