Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da CPU Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da GPU

Algoritmi, framework e istanze supportati per endpoint multimodello

Per informazioni sugli algoritmi, i framework e i tipi di istanza che è possibile utilizzare con gli endpoint a più modelli, consulta le sezioni seguenti.

Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da CPU

I container di inferenza per i seguenti algoritmi e framework supportano endpoint a più modelli:

Per utilizzare qualsiasi altro framework o algoritmo, utilizza il toolkit di inferenza SageMaker AI per creare un contenitore che supporti endpoint multimodello. Per informazioni, consultare Crea il tuo contenitore per gli endpoint multimodello di intelligenza artificiale SageMaker .

Gli endpoint a più modelli supportano tutti i tipi di istanze CPU.

Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da GPU

L'hosting di più modelli basati su GPU su endpoint multimodello è supportato tramite il server AI Triton Inference. SageMaker Questo supporta tutti i principali framework di inferenza come NVIDIA® TensorRT™, Python, XGBoost ONNX, MXNet scikit-learn PyTorch, OpenVINO, C++ personalizzato e altri. RandomForest

Per utilizzare qualsiasi altro framework o algoritmo, puoi usare il back-end Triton per Python o C++ per scrivere la logica del modello e servire qualsiasi modello personalizzato. Dopo aver preparato il server, puoi iniziare a implementare centinaia di modelli di Deep Learning dietro un unico endpoint.

Gli endpoint a più modelli supportano i seguenti tipi di istanze GPU:

Famiglia di istanze	Tipo di istanza	v CPUs	GiB di memoria per vCPU	GPUs	Memoria GPU
p2	ml.p2.xlarge	4	15,25	1	12
p3	ml.p3.2xlarge	8	7,62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g 5.2xlarg	8	4	1	24
g5	ml.g 5,4xlarge	16	4	1	24
g5	ml.g 5,8xlarge	32	4	1	24
g5	ml.g 5,16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Endpoint multi-modello

Raccomandazioni sulle istanze per le distribuzioni di endpoint a più modelli