如何在 Amazon Bedrock 中計算字符

當您執行模型推論時，根據您使用的 Amazon Bedrock 模型，可以處理的字符數量有配額。檢閱下列與字符配額相關的術語：

術語	定義
`InputTokenCount`	CloudWatch Amazon Bedrock 執行時間指標，代表請求中做為模型輸入提供的字符數量。
`OutputTokenCount`	CloudWatch Amazon Bedrock 執行時間指標，代表模型為回應請求而產生的字符數量。
`CacheReadInputTokens`	CloudWatch Amazon Bedrock 執行時間指標，代表從快取成功擷取的輸入字符數量，而不是模型重新處理。如果您不使用提示快取，則此值為 0。
`CacheWriteInputTokens`	CloudWatch Amazon Bedrock 執行時間指標，代表已成功寫入快取的輸入字符數量。如果您不使用提示快取，則此值為 0。
每分鐘字符數 (TPM)	您可以在一分鐘內使用的字符數量（包括輸入和輸出）， AWS 在模型層級由設定的配額。
每天字符 (TPD)	您可以在一天內使用的字符數量（包括輸入和輸出）， AWS 在模型層級由設定的配額。根據預設，此值為 TPM x 24 x 60。不過，新的 AWS 帳戶已減少配額。
每分鐘請求數 (RPM)	您可以在一分鐘內傳送的請求數量， AWS 在模型層級由設定的配額。
`max_tokens`	您在請求中提供的參數，用於設定模型可產生的最大輸出字符數量。
爆量率	輸入和輸出字符轉換為限流系統字符配額用量的速率。

下列模型的銷毀率為輸出字符的 5 倍 (1 個輸出字符從您的配額消耗 5 個字符）：

對於所有其他模型，縮減率為 1：1 (1 個輸出字符從您的配額消耗 1 個字符）。

了解字符配額管理

當您提出請求時，權杖會從 TPM 和 TPD 配額中扣除。計算會在下列階段進行：

在請求開始時 – 假設您尚未超過 RPM 配額，則會從您的配額中扣除下列總和。如果您超過配額，請求會受到調節。
```
Total input tokens + max_tokens
```
在處理期間 – 請求消耗的配額會定期調整，以考量實際產生的輸出字符數量。
在請求結束時 – 請求消耗的字符總數將計算如下，任何未使用的字符都會補充到您的配額：
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
如果您不使用提示快取，則 CacheWriteInputTokens將為 0。 CacheReadInputTokens 不會對此計算做出貢獻。

您只需支付實際字符用量的費用。

例如，如果您使用 AnthropicClaude Sonnet 4並傳送包含 1，000 個輸入字符的請求，則會產生相當於 100 個字符的回應：

該max_tokens值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額，請嘗試減少，max_tokens以更接近完成的大小。

以下案例提供配額扣除如何使用輸出字符的 5 倍縮減率模型來處理已完成請求的範例：

假設下列參數：

會發生下列配額扣除：

在此案例中，由於 max_tokens 參數設定過高，因此可以提出較少的並行請求。這可減少請求並行、輸送量和配額使用率，因為可快速達到 TPM 配額容量。

假設下列參數：

會發生下列配額扣除：

在此案例中， max_tokens 參數已最佳化，因為初始扣款僅略高於最終調整扣款。這有助於增加請求並行、輸送量和配額使用率。

透過最佳化 max_tokens 參數，您可以有效率地利用配置的配額容量。為了協助通知您有關此參數的決策，您可以使用 Amazon CloudWatch，其會自動從 AWS 服務收集指標，包括 Amazon Bedrock 中的字符用量資料。

權杖會記錄在 InputTokenCount和OutputTokenCount執行期指標中（如需更多指標，請參閱 Amazon Bedrock 執行時間指標。

若要使用 CloudWatch 監控來通知您 max_tokens 參數的決定，請在中執行下列動作 AWS Management Console：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

配額

用於監控用量和成本的計數字符