在 AWS Clean Rooms ML 中贡献训练数据 - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Clean Rooms ML 中贡献训练数据

在协作创建者创建协作并且受邀成员加入后,您就可以为协作贡献训练数据了。任何成员都可以贡献训练数据。

Console
贡献训练数据(控制台)
  1. 登录 AWS Management Console 并在 https://console.aws.amazon.com/clean room AWS Clean Rooms s 上打开控制台。

  2. 在左侧导航窗格中,选择

  3. 在 “” 页面上,选择 “配置新表”。

  4. 对于配置新表,对于数据源,选择 A mazon S3Amazon A thena Snowflake,然后根据您的数据源完成以下步骤:

    如果你正在使用 那么
    Amazon S3
    1. 从下拉列表中选择一个数据库,然后从数据库中选择

    2. 对于协作中允许的列,选择所有列自定义列表

    3. 有关已配置表的详细信息,请提供该表的名称和可选描述

    4. 如果要报告模型指标,请输入指标的名称和将搜索输出日志以查找指标的 Regex 语句。

    5. 如果要为已配置的表资源启用标签,请选择添加新标签,然后输入对。

    Amazon Athena
    1. 从下拉列表中选择一个数据库,然后从数据库中选择

    2. 对于协作中允许的列,选择所有列自定义列表

    3. 有关已配置表的详细信息,请提供该表的名称和可选描述

    4. 如果要报告模型指标,请输入指标的名称和将搜索输出日志以查找指标的 Regex 语句。

    5. 如果要为已配置的表资源启用标签,请选择添加新标签,然后输入对。

    Snowflake
    1. 使用现有密钥 ARN 或存储此表的新密钥指定 Sn owflake 凭证

    2. 要获取 Snowflake 表和架构的详细信息,请手动输入详细信息或自动导入详细信息。

    3. 对于架构,输入列名并从下拉列表中选择数据类型

    4. 如果要为已配置的表资源启用标签,请选择添加新标签,然后输入对。

  5. 选择配置新表

  6. 在表格详细信息页面上,选择配置分析规则,为该表配置自定义分析规则。自定义分析规则限制对数据的访问权限。您可以允许对您的数据进行一组特定的预授权查询,也可以允许一组特定的账户查询您的数据。

    1. 对于分析规则类型,选择自定义,对于创建方法,选择引导流程

    2. 选择下一步

    3. 在 “指定分析控件” 中,在 “查看每项新分析” 和 “允许特定合作者进行任何分析” 之间进行选择。

    4. 选择下一步

    5. (可选)对于指定分析结果控件,对于输出中不允许的列,请指定是否要从输出中排除任何列。如果选择 “”,则不会从输出中排除任何列。如果选择 “自定义列表”,则可以指定将从输出中删除的某些列。

    6. 对于应用于输出的其他分析,请指定在生成结果之前是允许、拒绝还是要求进行其他分析。

    7. 选择下一步

    8. (可选)在 “设置差异隐私” 中,选择 “关闭”。

    9. 选择下一步

    10. 查看查看和配置页面上的信息,然后选择配置分析规则

  7. 在表格详细信息页面中,选择关联到协作

  8. 在 “关联表” 对话框中,选择要将此表格关联到的协作,然后选择 “选择协作”

  9. 在 “关联表” 页面上,查看并验证表关联详细信息服务访问权限标签中的信息。选择关联表

  10. 在 “与您关联的表” 表中,选择刚才关联的表旁边的单选按钮。从 “操作” 菜单中,选择 “协作分析规则” 组中的 “配置”。

  11. 在 “配置协作分析规则” 页面上,在 “允许的其他分析” 中,选择是否有任何协作成员或特定协作成员可以执行其他分析。

    对于结果交付,请选择允许哪些成员接收来自查询输出的结果。

  12. 选择配置分析规则

API

贡献训练数据 (API)

  1. AWS Clean Rooms 通过提供 AWS Glue 表和可以使用的列,配置现有表以供在中使用。

    使用您的特定参数运行以下代码。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table( name='configured_table_name', tableReference= { 'glue': { 'tableName': 'glue_table_name', 'databaseName': 'glue_database_name' } }, analysisMethod="DIRECT_QUERY", allowedColumns=["column1", "column2", "column3",...] )
  2. 配置限制对数据的访问的自定义分析规则。您可以允许对您的数据进行一组特定的预授权查询,也可以允许一组特定的账户查询您的数据。

    使用您的特定参数运行以下代码。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table_analysis_rule( configuredTableIdentifier='configured_table_id', analysisRuleType='CUSTOM', analysisRulePolicy= { 'v1': { 'custom': { 'allowedAnalyses': ['ANY_QUERY'], 'allowedAnalysisProviders': ['query_runner_account'], 'additionalAnalyses': "REQUIRED" } } } )

    在此示例中,允许特定账户对数据运行任何查询,并且需要进行额外的分析。

  3. 将已配置的表与协作关联,并为这些 AWS Glue 表提供服务访问角色。

    使用您的特定参数运行以下代码。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table_association( name='configured_table_association_name', membershipIdentifier='membership_id', configuredTableIdentifier='configured_table_id', roleArn='arn:aws:iam::account:role/role_name' )
    注意

    此服务角色拥有对表的权限。只有代表可以查询的成员运行 AWS Clean Rooms 允许的查询时,才可以假设服务角色。任何协作成员(数据所有者除外)都无法访问协作中的底层表。数据所有者可以关闭差异隐私,使其表可供其他成员查询。

  4. 最后,向配置的表关联添加分析规则。

    使用您的特定参数运行以下代码。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table_association_analysis_rule( configuredTableAssociationIdentifier='configured_table_association_identifier', membershipIdentifier='membership_id', configuredTableIdentifier='configured_table_id', analysisRuleType = 'CUSTOM', analysisRulePolicy= { 'v1': { 'custom': { 'allowedAdditionalAnalyses': ['configured_model_algorithm_association_arns'], 'allowedResultReceivers': ['query_runner_account'] } } } )