本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
应避免的标签做法
虽然在标记对象或基础架构时需要采取一些做法 AWS,但也有一些做法需要避免。
标记不一致
如目标本节所述,如果没有标记,就无法实现高度的自动化、清理或监控。同样,如果标签不完整或不一致,自动化或监控所需的信息就不完整,从而导致结果不可靠。
想象一下这样一个场景:你使用标签策略来计算所有项目的总成本。该策略从 proof-of-concept阶段 (PoC) 开始,到生产阶段结束。考虑以下场景,将标签应用于项目销售预测 P1、D1 和 Pr1 示例以及项目售后维护 P2、D2 和 Pr2 示例的数据和资源。
销售预测
示例 P1:PoC 项目(缺少域名和时间戳)。
env: "poc" project: "sales forecasting"
示例 D1:开发阶段(缺少域)。
env: "dev" project: "sales forecasting" timestamp: 20210505T12:34:55
示例 Pr1:生产阶段(所有值都存在)。
env: "prod" project: "sales forecasting" domain: "machine learning" timestamp: 20210505T12:34:55
对于项目销售预测:
-
示例 P1 没有提及对象来自哪个域或时间戳。
-
示例 D1 也没有提及项目的领域。
-
示例 Pr1 包含所有必需的数据。
示例 P1 和 D1 会导致规划报告或估算值不正确,因为未定义域。
售后维护
示例 P2:PoC 项目(缺少所有标签)。
示例 D2:开发阶段(缺少项目)。
env: "dev" domain: "machine learning" timestamp: 20210505T12:34:55
示例 Pr2:生产阶段(所有值都存在)。
env: "prod" project: "post sales maintenance" domain: "machine learning" timestamp: 20210505T12:34:55
对于项目售后维护:
-
示例 P2 没有任何信息,因此无法对其进行跟踪。
-
示例 D2 没有提及项目名称,因此无法对其进行跟踪。
-
示例 Pr2 包含所有必需的数据。
示例 P2 和 D2 会由于标签缺失或不一致而导致报告不正确、计划不足或报告不足。
因此,始终如一地实施标签策略非常重要。
标签中的数据不正确和敏感
如果使用标签处理不正确、敏感或私密的信息,则可能适得其反。错误的标签可能会产生误导性的结果。使用包含敏感数据(例如个人身份信息 (PII))的标签可能会危及客户和员工的安全。
标签中的信息不正确
想象一下,您使用标签策略来计算每个域或部门的总成本。您刚刚完成了数据摄取阶段,正朝着机器学习迈进。以下示例包括从项目前一阶段复制的自定义标签。
env: "development" project: "sales prediction" domain: "data ingestion" timestamp: 20210505T12:34:55
该域被错误地标记为data ingestion
上一个项目阶段的域,而不是正确的域(即)machine learning
。现在,该data ingestion
域的报告将显示更高的成本、时间范围和资源分配。该machine learning
域将显示这些报告的较低值。这将导致规划、预算分配和截止日期估算不正确。
拥有正确的标签对于正常运行的系统至关重要。
标签中的敏感信息
AWS 提供了多种用于识别对象中的 PII 的工具。这些工具包括 Amazon Macie 和AWS Glue 敏感数据检测,用于查找可用于识别个人的数据。但是,请务必不要在标签中使用 PII 或敏感数据。
以下 Amazon S3 中已编辑或匿名化了 PII 的文件为例。
{ firstName: "67A1790DCA55B8803AD024EE28F616A2", lastName: "DRG54654DFHJGDYYRD", age: 21, city : "Frankfurt", probability_of_purchase: 48.858093, veggieName: "broccoli", creditcard: false }
您可以看到客户的名字和姓氏已被哈希处理。但是,在本示例中,该记录具有以下自定义标签。
owner: "Company XYZ" about: "John Doe" contact: "johnthegreat@email.com" timestamp: 20210505T12:34:55
在这种情况下,尽管文件本身不包含 PII,但标签确实包含敏感信息。这会增加信息泄露的可能性,因为当您共享或传输文件或对象时,也会共享或传输其元数据。这也适用于其他 AWS 资源,例如数据库、表、作业和函数。
因此,避免在标签中使用私人信息非常重要。同样的概念延伸到关键或非公开信息。