Einzelheiten zu den Testergebnissen - Amazon Lex

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Einzelheiten zu den Testergebnissen

Die Testergebnisse zeigen die Details des Testsatzes, die verwendeten Absichten und die verwendeten Steckplätze. Es enthält auch die gesamte Aufschlüsselung der Testset-Eingaben, einschließlich der Gesamtergebnisse, der Konversationsergebnisse, der Absicht und der Slot-Ergebnisse.

Die Testergebnisse umfassen alle testbezogenen Informationen wie:

  • Metadaten der Testdetails

  • Ergebnisse insgesamt

  • Ergebnisse der Konversation

  • Absicht und Slot-Ergebnisse

  • Detaillierte Ergebnisse

Registerkarte „Gesamtergebnisse“:

Das Testset hat in den Testergebnissen mithilfe der Test Workbench ein Aufschlüsselungsdiagramm eingegeben.

Aufschlüsselung der Testset-Eingaben — Dieses Diagramm zeigt die Aufschlüsselung der Anzahl der Konversationen und der einzelnen Eingabeäußerungen im Testset.

Das Diagramm mit der Aufschlüsselung der einzelnen Eingaben in den Testergebnissen mit der Test Workbench.

Aufschlüsselung nach einzelnen Eingaben — Zeigt zwei Diagramme an, die end-to-end Konversationen und Sprachtranskriptionen enthalten. Die Anzahl der erfolgreichen und fehlgeschlagenen Eingaben ist in jeder Tabelle angegeben. Hinweis: Die Sprachtranskriptionstabelle ist nur für das Audiotest-Set sichtbar.

Das Diagramm mit der Aufschlüsselung der Konversation in den Testergebnissen mit der Test Workbench.

Aufschlüsselung der Konversation — Zeigt zwei Diagramme an, die end-to-end Konversationen und Sprachtranskriptionen enthalten. Die Anzahl der erfolgreichen und fehlgeschlagenen Eingaben wird in jedem Diagramm angegeben. Hinweis: Die Sprachtranskriptionstabelle ist nur für das Audiotest-Set sichtbar.

Registerkarte mit Konversationsergebnissen:

Die Erfolgsquoten von Konversationen werden in den Testergebnissen unter Verwendung der Test Workbench angezeigt.

Erfolgsquoten für Konversationen — Anhand der Tabelle mit den Erfolgsquoten für Konversationen wird ermittelt, welche Absichten und Zeitpunkte in den einzelnen Konversationen im Testsatz verwendet wurden. Sie können visualisieren, wo die Konversation gescheitert ist, indem Sie überprüfen, welche Absicht oder welcher Slot fehlgeschlagen ist, sowie den Prozentsatz, in dem die Konversation bestanden hat.

Die Messwerte für das Scheitern der Konversationsabsicht werden in den Testergebnissen mithilfe der Test Workbench grafisch dargestellt.

Messwerte für fehlgeschlagene Konversationsabsichten — Diese Metrik zeigt die fünf Intentionen mit der schlechtesten Leistung im Testset. In diesem Bereich wird anhand der Konversationsprotokolle oder der Transkription des Bots grafisch dargestellt, wie viel Prozent oder wie viele Intents erfolgreich waren oder nicht. Eine erfolgreiche Absicht bedeutet nicht, dass die gesamte Konversation erfolgreich war. Diese Kennzahlen beziehen sich nur auf den Wert der Absichten, unabhängig davon, welche Absicht davor oder danach kam.

Die Metriken für den Ausfall des Conversation-Slots werden in den Testergebnissen mithilfe der Test Workbench grafisch dargestellt.

Metriken zum Ausfall von Konversationsslots — Diese Metrik zeigt die fünf Slots mit der schlechtesten Leistung im Testsatz. Zeigt die Erfolgsquote für jeden Slot im Intent an. Das Balkendiagramm zeigt sowohl die Sprachtranskription als auch die end-to-end Konversationen für jeden Slot in der Absicht.

Registerkarte „Absicht“ und „Slot-Ergebnisse“:

Die Metriken zur Absichtserkennung werden in den Testergebnissen mithilfe der Test Workbench grafisch dargestellt.

Kennzahlen zur Absichtserkennung — Zeigt in einer Tabelle an, wie viele Absichten erfolgreich erkannt wurden. Zeigt die Erfolgsquote der Sprachtranskription und end-to-end der Konversationen an.

Die Messwerte für die Steckplatzauflösung werden in den Testergebnissen mithilfe der Test Workbench grafisch dargestellt.

Metriken zur Slot-Auflösung — Zeigt die Absichten und Slots getrennt an sowie die Erfolgs- und Misserfolgsrate jedes Slots für jede Absicht, die in der Konversation oder einzelnen Eingabe verwendet wurde. Zeigt die Erfolgsquote der Sprachtranskription und end-to-end der Konversationen an.

Registerkarte mit detaillierten Ergebnissen:

Die detaillierten Ergebnisse in Testergebnissen mit der Test Workbench.

Detaillierte Ergebnisse — Zeigt eine detaillierte Tabelle im Konversationsprotokoll mit den Äußerungen von Benutzern und Agenten sowie der erwarteten Ausgabe und der erwarteten Transkription für jeden Slot an. Sie können diesen Bericht herunterladen, indem Sie auf die Schaltfläche Herunterladen klicken.

In der folgenden Tabelle sind die Fehlermeldungen mit den entsprechenden Szenarien aufgeführt.

Szenario Fehlermeldung Aktion
Absicht stimmt nicht überein Erwartete BookFlight Absicht, aber es war BookHotel Absicht.

Überspringe andere Runden in der Konversation

Slot-Elicitation stimmt nicht überein Es wurde erwartet, dass das Zeitfenster für das Abflugdatum ausgewählt wurde, aber es war CabinType. Überspringe andere Runden in der Konversation
Die Slot-Werte stimmen nicht überein Nichtübereinstimmung zwischen dem erwarteten und dem tatsächlichen Slot-Wert. Fahren Sie mit anderen Runden in den Konversationen fort
Die Eingabeaufforderung ack-to-back des B-Agenten fehlt Es wurde erwartet, dass der Bot in dieser Runde eine Agentenaufforderung zurückgibt, aber sie wurde nicht empfangen. Überspringe andere Runden in der Konversation
Die Transkription stimmt nicht überein Die erwartete Transkription stimmte nicht mit der tatsächlichen Transkription überein. Fahren Sie mit anderen Runden in den Konversationen fort
Optionaler Slot wurde nicht ausgelöst Es wird erwartet, dass in der nächsten Runde der CabinType-Slot ausgelöst wird, die aktuelle Absicht wurde jedoch zuvor erfüllt. Überspringe andere Runden in der Konversation
Steckplatz wurde nicht erkannt Der Slot Expected DepartureDate wurde in dieser Runde nicht erkannt. Überspringe andere Runden in der Konversation
Zusätzliche back-to-back Agentenaufforderung Es wurde erwartet, dass ein Benutzer an der Reihe war, aber es war eine Aufforderung durch einen Überspringe andere Runden in der Konversation