如何在 Amazon Bedrock 中計算字符 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

如何在 Amazon Bedrock 中計算字符

當您執行模型推論時,根據您使用的 Amazon Bedrock 模型,可以處理的字符數量有配額。檢閱下列與字符配額相關的術語:

術語 定義
InputTokenCount CloudWatch Amazon Bedrock 執行時間指標,代表請求中做為模型輸入提供的字符數量。
OutputTokenCount CloudWatch Amazon Bedrock 執行時間指標,代表模型為回應請求而產生的字符數量。
CacheReadInputTokens CloudWatch Amazon Bedrock 執行時間指標,代表從快取成功擷取的輸入字符數量,而不是模型重新處理。如果您不使用提示快取,則此值為 0。
CacheWriteInputTokens CloudWatch Amazon Bedrock 執行時間指標,代表已成功寫入快取的輸入字符數量。如果您不使用提示快取,則此值為 0。
每分鐘字符數 (TPM) 您可以在一分鐘內使用的字符數量 (包括輸入和輸出), AWS 在模型層級由 設定的配額。
每天字符 (TPD) 您可以在一天內使用的字符數量 (包括輸入和輸出), AWS 在模型層級由 設定的配額。根據預設,此值為 TPM x 24 x 60。不過,新的 AWS 帳戶 已減少配額。
每分鐘請求數 (RPM) 您可以在一分鐘內傳送的請求數量, AWS 在模型層級由 設定的配額。
max_tokens 您在請求中提供的參數,用於設定模型可產生的最大輸出字符數量。
爆量率 輸入和輸出字符轉換為限流系統字符配額用量的速率。

下列模型的銷毀率為輸出字符的 5 倍 (1 個輸出字符從您的配額消耗 5 個字符):

  • Anthropic Claude Opus 4

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

對於所有其他模型,縮減率為 1:1 (1 個輸出字符從您的配額消耗 1 個字符)。

了解字符配額管理

當您提出請求時,權杖會從 TPM 和 TPD 配額中扣除。計算會在下列階段進行:

  • 在請求開始時 – 假設您尚未超過 RPM 配額,則會從您的配額中扣除下列總和。如果您超過配額,請求會受到調節。

    Total input tokens + max_tokens
  • 處理期間 – 請求消耗的配額會定期調整,以考量實際產生的輸出字符數量。

  • 在請求結束時 – 請求消耗的字符總數將計算如下,任何未使用的字符都會補充到您的配額:

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    如果您不使用提示快取,則 CacheWriteInputTokens將為 0。 CacheReadInputTokens 不會對此計算做出貢獻。

注意

您只需支付實際字符用量的費用。

例如,如果您使用 AnthropicClaude Sonnet 4並傳送包含 1,000 個輸入字符的請求,則會產生相當於 100 個字符的回應:

  • 1,500 個字符 (1,000 + 100 x 5) 將從您的 TPM 和 TPD 配額耗盡。

  • 您只需支付 1,100 個字符的費用。

了解 max_tokens 參數的影響

max_tokens值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額,請嘗試減少 ,max_tokens以更接近完成的大小。

以下案例提供配額扣除如何使用輸出字符的 5 倍縮減率模型來處理已完成請求的範例:

假設下列參數:

  • InputTokenCount:3,000

  • CacheReadInputTokens:4,000

  • CacheWriteInputTokens:1,000

  • OutputTokenCount:1,000

  • max_tokens:32,000

會發生下列配額扣除:

  • 發出請求時的初始扣款:40,000 (= 3,000 + 4,000 + 1,000 + 32,000)

  • 產生回應後的最終調整後扣款:9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此案例中,由於 max_tokens 參數設定過高,因此可以提出較少的並行請求。這可減少請求並行、輸送量和配額使用率,因為可快速達到 TPM 配額容量。

假設下列參數:

  • InputTokenCount:3,000

  • CacheReadInputTokens:4,000

  • CacheWriteInputTokens:1,000

  • OutputTokenCount:1,000

  • max_tokens:1,250

會發生下列配額扣除:

  • 發出請求時的初始扣款:9,250 (= 3,000 + 4,000 + 1,000 + 1,250)

  • 產生回應後的最終調整後扣款:9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此案例中, max_tokens 參數已最佳化,因為初始扣款僅略高於最終調整扣款。這有助於增加請求並行、輸送量和配額使用率。

最佳化 max_tokens 參數

透過最佳化 max_tokens 參數,您可以有效率地利用配置的配額容量。為了協助通知您有關此參數的決策,您可以使用 Amazon CloudWatch,其會自動從 AWS 服務收集指標,包括 Amazon Bedrock 中的字符用量資料。

權杖會記錄在 InputTokenCountOutputTokenCount執行期指標中 (如需更多指標,請參閱 Amazon Bedrock 執行時間指標

若要使用 CloudWatch 監控來通知您 max_tokens 參數的決定,請在 中執行下列動作 AWS Management Console:

  1. 登入 Amazon CloudWatch 主控台,網址為 https://https://console.aws.amazon.com/cloudwatch

  2. 從左側導覽窗格中,選取儀表板

  3. 選取自動儀表板索引標籤。

  4. 選取 Bedrock

  5. 模型的字符計數儀表板中,選取展開圖示。

  6. 為指標選取時間持續時間和範圍參數,以考慮尖峰用量。

  7. 從標記為總和的下拉式選單中,您可以選擇不同的指標來觀察字符用量。檢查這些指標,以引導您設定max_tokens值的決定。