動画理解の制限事項
以下は、モデルの精度とパフォーマンスが保証されない主なモデル制限です。
-
リクエストごとに 1 つの動画: 現在、モデルはリクエストごとに 1 つの動画のみをサポートしています。一部のフレームワークとライブラリは、メモリを使用して以前のインタラクションを追跡します。前のコンテキストで追加された動画がある可能性があります。
-
オーディオはサポートされない: モデルは現在、動画内のビジュアル情報のみに基づいて動画コンテンツを処理および理解するようにトレーニングされています。動画に含まれる音声成分を分析したり理解したりする機能はありません。
-
一時的な因果関係: モデルでは、動画の進行全体におけるイベントの因果関係についての理解が限られています。時点的な質問にはうまく答えますが、一連の出来事の理解に依存する回答に対してはあまり適していません。
-
多言語イメージの理解: モデルでは、多言語のイメージや動画フレームの理解に限界があります。そのようなタスクでは手こずったり、ハルシネーションしたりする可能性があります。
-
人物識別: Amazon Nova モデルは、イメージ、ドキュメント、または動画内の個人を識別または名前を付ける機能はサポートされていません。モデルはそのようなタスクの実行を拒否します。
-
空間推論: Amazon Nova モデルには、空間推論機能が限られています。正確な位置特定やレイアウト分析を必要とするタスクに手こずる可能性があります。
-
イメージまたは動画内の小さなテキスト: イメージまたは動画内のテキストが小さすぎる場合は、必要なコンテンツを維持しながら、関連するセクションにトリミングして、イメージ内のテキストの相対サイズを増やすことを検討してください。
-
カウント: Amazon Nova モデルは、イメージ内のオブジェクトの概数を提供できますが、特に多数の小さなオブジェクトを扱う場合、必ずしも正確であるとは限りません。
-
不適切なコンテンツ: Amazon Nova モデルは、適正利用規約に違反する不適切または露骨なイメージを処理しません。
-
ヘルスケア用途: これらのアーティファクトは機密性が高いため、Amazon Nova モデルはヘルスケアの画像や動画の一般的な分析を行うことができますが、複雑な診断スキャンを解釈することはお勧めしません。Amazon Nova のレスポンスは、専門家による医療アドバイスに代わるものとして扱ってはなりません。