Conecte-se ao Confluence para obter sua base de conhecimento do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Conecte-se ao Confluence para obter sua base de conhecimento do Amazon Bedrock

O Atlassian Confluence é uma ferramenta colaborativa de gerenciamento de trabalho projetada para compartilhar, armazenar e trabalhar no planejamento de projetos, desenvolvimento de software e gerenciamento de produtos. Você pode se conectar à sua instância do Confluence para sua base de conhecimento do Amazon Bedrock usando o AWS Console de gerenciamento para Amazon Bedrock ou o CreateDataSourceAPI(consulte Amazon Bedrock suportado) e SDKs AWS CLI).

nota

O conector de fonte de dados do Confluence está na versão prévia e está sujeito a alterações.

O Amazon Bedrock oferece suporte à conexão com instâncias do Confluence Cloud. Atualmente, somente o armazenamento vetorial Amazon OpenSearch Serverless está disponível para uso com essa fonte de dados.

Há limites para quantos arquivos e MB por arquivo podem ser rastreados. Consulte Cotas para bases de conhecimento.

Atributos compatíveis

  • Detecção automática dos principais campos do documento

  • Filtros de conteúdo de inclusão/exclusão

  • Sincronizações incrementais de conteúdo para conteúdo adicionado, atualizado e excluído

  • OAuthAutenticação 2.0, autenticação com token Confluence API

Pré-requisitos

No Confluence, certifique-se de:

  • Anote sua instância do Confluence. URL Por exemplo, para o Confluence Cloud, https://example.atlassian.net. O URL for Confluence Cloud deve ser a baseURL, terminando com .atlassian.net.

  • Configure credenciais básicas de autenticação contendo um nome de usuário (e-mail da conta de administrador) e uma senha (APItoken do Confluence) para permitir que o Amazon Bedrock se conecte à sua instância do Confluence Cloud. Para obter informações sobre como criar um API token do Confluence, consulte Gerenciar API tokens para sua conta Atlassian no site da Atlassian.

  • (Opcional) Configure um aplicativo OAuth 2.0 com credenciais de uma chave do aplicativo, segredo do aplicativo, token de acesso e token de atualização. Para obter mais informações, consulte Aplicativos OAuth 2.0 no site da Atlassian.

  • Certas permissões ou escopos de leitura devem estar habilitados para que seu aplicativo OAuth 2.0 se conecte ao Confluence.

    Confluência: API

    • acesso_offline

    • somente leitura: content.attachment:confluence

    • leia: confluence-content.all

    • leia:confluence-content.summary

    • leia:confluence-space.summary

Em seu AWS conta, certifique-se de:

  • Armazene suas credenciais de autenticação em um AWS Secrets Manager segredo e anote o nome de recurso da Amazon (ARN) do segredo. Siga as instruções de configuração da conexão nesta página para incluir os pares de valores-chave que devem ser incluídos em seu segredo.

  • Inclua as permissões necessárias para se conectar à sua fonte de dados em seu AWS Identity and Access Management (IAM) política de funções/permissões para sua base de conhecimento. Para obter informações sobre as permissões necessárias para que essa fonte de dados seja adicionada à sua base de conhecimento IAM função, consulte Permissões para acessar fontes de dados.

nota

Se você usa o console, você pode ir para AWS Secrets Manager para adicionar seu segredo ou usar um segredo existente como parte da etapa de configuração da fonte de dados. A ferramenta IAM Uma função com todas as permissões necessárias pode ser criada para você como parte das etapas do console para criar uma base de conhecimento. Depois de configurar sua fonte de dados e outras configurações, o IAM a função com todas as permissões necessárias é aplicada à sua base de conhecimento específica.

Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e segredos em todas as fontes de dados.

Configuração de conexão

Para se conectar à sua instância do Confluence, você deve fornecer as informações de configuração necessárias para que o Amazon Bedrock possa acessar e rastrear seus dados. Você também deve seguir Pré-requisitos o.

Um exemplo de configuração para essa fonte de dados está incluído nesta seção.

Para obter mais informações sobre detecção automática de campos de documentos, filtros de inclusão/exclusão, sincronização incremental, credenciais de autenticação secreta e como elas funcionam, selecione o seguinte:

O conector da fonte de dados detecta e rastreia automaticamente todos os principais campos de metadados de seus documentos ou conteúdo. Por exemplo, o conector da fonte de dados pode rastrear o corpo do documento equivalente aos seus documentos, o título do documento, a data de criação ou modificação do documento ou outros campos principais que possam se aplicar aos seus documentos.

Importante

Se o seu conteúdo incluir informações confidenciais, Amazon Bedrock poderia responder usando informações confidenciais.

Você pode aplicar operadores de filtragem aos campos de metadados para ajudar a melhorar ainda mais a relevância das respostas. Por exemplo, o documento “epoch_modification_time” ou o número de segundos que passaram de 1º de janeiro de 1970 para a última atualização do documento. Você pode filtrar os dados mais recentes, onde “epoch_modification_time” é maior que um determinado número. Para obter mais informações sobre os operadores de filtragem que você pode aplicar aos seus campos de metadados, consulte Metadados e filtragem.

Você pode incluir ou excluir o rastreamento de determinados conteúdos. Por exemplo, você pode especificar um prefixo de exclusão/padrão de expressão regular para ignorar o rastreamento de qualquer arquivo que contenha “privado” no nome do arquivo. Você também pode especificar um prefixo de inclusão/padrão de expressão regular para incluir determinadas entidades de conteúdo ou tipos de conteúdo. Se você especificar um filtro de inclusão e exclusão e ambos corresponderem a um documento, o filtro de exclusão terá precedência e o documento não será rastreado.

Um exemplo de um padrão de expressão regular para excluir ou filtrar PDF arquivos que contêm “privado” no nome do arquivo:”. *privado.*\\ .pdf

Você pode aplicar filtros de inclusão/exclusão nos seguintes tipos de conteúdo:

  • Space: Chave de espaço exclusiva

  • Page: Título da página principal

  • Blog: Título principal do blog

  • Comment: comentários que pertencem a uma determinada página ou blog. Especificar Re: Page/Blog Title

  • Attachment: nome do arquivo anexo com sua extensão

O conector da fonte de dados rastreia conteúdo novo, modificado e excluído sempre que sua fonte de dados é sincronizada com sua base de conhecimento. Amazon Bedrock pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e rastrear o conteúdo que foi alterado desde a última sincronização. Quando você sincroniza sua fonte de dados com sua base de conhecimento pela primeira vez, todo o conteúdo é rastreado por padrão.

Para sincronizar sua fonte de dados com sua base de conhecimento, use StartIngestionJobAPIou selecione sua base de conhecimento no console e selecione Sincronizar na seção de visão geral da fonte de dados.

Importante

Todos os dados que você sincroniza da sua fonte de dados ficam disponíveis para qualquer pessoa com bedrock:Retrieve permissão para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Permissões da base de conhecimento.

(Se estiver usando autenticação básica) Suas credenciais de autenticação secreta em AWS Secrets Manager deve incluir esses pares de valores-chave:

  • username: admin user email address of Atlassian account

  • password: Confluence API token

(Se estiver usando a autenticação OAuth 2.0) Suas credenciais de autenticação secreta em AWS Secrets Manager deve incluir esses pares de valores-chave:

  • confluenceAppKey: app key

  • confluenceAppSecret: app secret

  • confluenceAccessToken: app access token

  • confluenceRefreshToken: app refresh token

nota

O token de acesso do Confluence OAuth2 4.0 tem um tempo de expiração padrão de 60 minutos. Se esse token expirar enquanto sua fonte de dados estiver sincronizando (trabalho de sincronização), o Amazon Bedrock usará o token de atualização fornecido para regenerar esse token. Essa regeneração atualiza os tokens de acesso e atualização. Para manter os tokens atualizados da tarefa de sincronização atual para a próxima tarefa de sincronização, o Amazon Bedrock exige permissões de gravação/colocação para suas credenciais secretas como parte de sua função na base de conhecimento. IAM

nota

Seu segredo em AWS Secrets Manager deve usar a mesma região da sua base de conhecimento.

Console

A seguir está um exemplo de uma configuração para se conectar ao Confluence para sua base de conhecimento do Amazon Bedrock. Você configura sua fonte de dados como parte das etapas de criação da base de conhecimento no console.

  1. Faça login no AWS Management Console usando uma IAMfunção com permissões do Amazon Bedrock e abra o console do Amazon Bedrock em. https://console.aws.amazon.com/bedrock/

  2. No painel de navegação esquerdo, selecione Bases de conhecimento.

  3. Na seção Bases de conhecimento, selecione Criar base de conhecimento.

  4. Forneça os detalhes da base de conhecimento.

    1. Forneça o nome da base de conhecimento e a descrição opcional.

    2. Forneça o AWS Identity and Access Management função para as permissões de acesso necessárias para criar uma base de conhecimento.

      nota

      A ferramenta IAM Uma função com todas as permissões necessárias pode ser criada para você como parte das etapas do console para criar uma base de conhecimento. Depois de concluir as etapas para criar uma base de conhecimento, o IAM a função com todas as permissões necessárias é aplicada à sua base de conhecimento específica.

    3. Crie as tags que você deseja atribuir à sua base de conhecimento.

    Vá para a próxima seção para configurar sua fonte de dados.

  5. Escolha o Confluence como sua fonte de dados e forneça os detalhes da configuração da conexão.

    1. Forneça o nome da fonte de dados e a descrição opcional.

    2. Forneça sua instância do Confluence. URL Por exemplo, para o Confluence Cloud, https://example.atlassian.net. O URL for Confluence Cloud deve ser a baseURL, terminando com .atlassian.net.

    Verifique as configurações avançadas. Opcionalmente, você pode alterar as configurações padrão selecionadas.

  6. Defina sua chave de criptografia de dados transitória e a política de exclusão de dados nas configurações avançadas.

    Para KMS key nas configurações, você pode escolher uma chave personalizada ou usar a chave de criptografia de dados padrão fornecida.

    Ao converter seus dados em incorporações, Amazon Bedrock criptografa seus dados transitórios com uma chave que AWS possui e gerencia, por padrão. Você pode usar sua própria KMS chave. Para obter mais informações, consulte Criptografia do armazenamento de dados temporário durante a ingestão de dados.

    Para configurações de política de exclusão de dados, você pode escolher:

    • Excluir: exclui todos os dados da sua fonte de dados que são convertidos em incorporações vetoriais após a exclusão de uma base de conhecimento ou recurso de fonte de dados. Observe que o armazenamento vetorial em si não é excluído, apenas os dados. Esse sinalizador é ignorado se um AWS a conta foi excluída.

    • Reter: retém todos os dados da sua fonte de dados que são convertidos em incorporações vetoriais após a exclusão de uma base de conhecimento ou recurso de fonte de dados. Observe que o armazenamento vetorial em si não será excluído se você excluir uma base de conhecimento ou um recurso de fonte de dados.

    Continue configurando sua fonte de dados.

  7. Forneça as informações de autenticação para se conectar à sua instância do Confluence:

    1. Para autenticação básica, acesse AWS Secrets Manager para adicionar suas credenciais de autenticação secreta ou usar um Amazon Resource Name (ARN) existente para o segredo que você criou. Seu segredo deve conter o endereço de e-mail do usuário administrador da conta Atlassian como nome de usuário e um API token do Confluence no lugar de uma senha. Para obter informações sobre como criar um API token do Confluence, consulte Gerenciar API tokens para sua conta Atlassian no site da Atlassian.

    2. Para a autenticação OAuth 2.0, acesse AWS Secrets Manager para adicionar suas credenciais de autenticação secreta ou usar um Amazon Resource Name (ARN) existente para o segredo que você criou. Seu segredo deve conter a chave do aplicativo Confluence, o segredo do aplicativo, o token de acesso e o token de atualização. Para obter mais informações, consulte Aplicativos OAuth 2.0 no site da Atlassian.

    Continue configurando sua fonte de dados.

  8. Escolha usar padrões de filtros/expressões regulares para incluir ou excluir determinado conteúdo. Caso contrário, todo o conteúdo padrão será rastreado.

    Continue configurando sua fonte de dados.

  9. Escolha as configurações padrão ou personalizadas de fragmentação e análise.

    1. Se você escolher configurações personalizadas, selecione uma das seguintes opções de fragmentação:

      • Fragmentação de tamanho fixo: conteúdo dividido em partes de texto com o tamanho aproximado do token definido. Você pode definir o número máximo de tokens que não devem exceder um bloco e a porcentagem de sobreposição entre blocos consecutivos.

      • Fragmentação padrão: conteúdo dividido em partes de texto de até 300 tokens. Se um único documento ou parte do conteúdo contiver menos de 300 tokens, o documento não será mais dividido.

      • Fragmentação hierárquica: conteúdo organizado em estruturas aninhadas de partes pai-filho. Você define o tamanho máximo do token do fragmento principal e o tamanho máximo do token do fragmento secundário. Você também define o número absoluto de tokens de sobreposição entre partes consecutivas dos pais e partes secundárias consecutivas.

      • Fragmentação semântica: conteúdo organizado em partes de texto semanticamente semelhantes ou grupos de frases. Você define o número máximo de frases ao redor da frase de destino/atual para agrupar (tamanho do buffer). Você também define o limite do percentil do ponto de interrupção para dividir o texto em partes significativas. A fragmentação semântica usa um modelo básico. Visualizar Amazon Bedrock preços para obter informações sobre o custo dos modelos de fundação.

      • Sem fragmentação: cada documento é tratado como um único fragmento de texto. Talvez você queira pré-processar seus documentos dividindo-os em arquivos separados.

      nota

      Você não pode alterar a estratégia de fragmentação depois de criar a fonte de dados.

    2. Você pode escolher usar Amazon Bedrock O modelo básico da para analisar documentos para analisar mais do que o texto padrão. Você pode analisar dados tabulares em documentos com sua estrutura intacta, por exemplo. Visualizar Amazon Bedrock preços para obter informações sobre o custo dos modelos de fundação.

    3. Você pode optar por usar um AWS Lambda função para personalizar sua estratégia de fragmentação e como os atributos/campos de metadados do documento são tratados e ingeridos. Forneça o Amazon S3 localização do bucket para a entrada e saída da função Lambda.

    Vá para a próxima seção para configurar seu armazenamento de vetores.

  10. Escolha um modelo para converter seus dados em incorporações vetoriais.

    Crie um armazenamento de vetores para permitir Amazon Bedrock para armazenar, atualizar e gerenciar incorporações. Você pode criar rapidamente um novo repositório de vetores ou selecionar um repositório de vetores compatível que você criou. Atualmente, somente o armazenamento vetorial Amazon OpenSearch Serverless está disponível para uso com essa fonte de dados. Se você criar um novo armazenamento de vetores, uma coleção e um índice de pesquisa vetorial Amazon OpenSearch Serverless com os campos obrigatórios serão configurados para você. Se você selecionar um repositório de vetores compatível, deverá mapear os nomes dos campos vetoriais e os nomes dos campos de metadados.

    Vá para a próxima seção para revisar as configurações da sua base de conhecimento.

  11. Verifique os detalhes da sua base de conhecimento. Você pode editar qualquer seção antes de começar a criar sua base de conhecimento.

    nota

    O tempo necessário para criar a base de conhecimento depende de suas configurações específicas. Quando a criação da base de conhecimento é concluída, o status da base de conhecimento muda para o estado de pronta ou disponível.

    Quando sua base de conhecimento estiver pronta e disponível, sincronize sua fonte de dados pela primeira vez e sempre que quiser manter seu conteúdo atualizado. Selecione sua base de conhecimento no console e selecione Sincronizar na seção de visão geral da fonte de dados.

API

A seguir está um exemplo de uma configuração para se conectar ao Confluence Cloud para sua base de conhecimento do Amazon Bedrock. Você configura sua fonte de dados usando o API com o AWS CLI ou compatívelSDK, como Python. Depois de ligar CreateKnowledgeBase, você liga CreateDataSourcepara criar sua fonte de dados com as informações de conexãodataSourceConfiguration. Lembre-se também de especificar sua estratégia/abordagem de fragmentação vectorIngestionConfiguration e sua política de exclusão de dados em. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "Confluence Cloud/SaaS connector" \ --description "Confluence Cloud/SaaS data source connector for Amazon Bedrock to use content in Confluence" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://confluence-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' confluence-bedrock-connector-configuration.json { "confluenceConfiguration": { "sourceConfiguration": { "hostUrl": "https://example.atlassian.net", "hostType": "SAAS", "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Confluence" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "Attachment", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "CONFLUENCE" }