使用直方图 - Amazon QuickSight

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用直方图

使用 Amazon 中的直方图 QuickSight 来显示数据中连续数值的分布。Amazon QuickSight 使用非标准化直方图,即使用每个数据桶中数据点或事件的绝对计数。

要创建直方图,需要使用一个度量。新的直方图一开始会在 X 轴上显示十个条柱(也称为)。它们在图表上显示为条形。您可以根据数据集自定义条柱。Y 轴显示每个条柱中值的绝对计数。

请确保调整格式设置,以便获得清晰可识别的形状。如果数据包含异常值,有一个或多个值偏离 X 轴的一侧,这可以清晰地展示出来。有关 Amazon 如何 QuickSight处理超出显示限制的数据的信息,请参阅显示限制

直方图的功能

可以通过下表了解直方图支持的功能。

功能 支持? 注释 有关更多信息
更改图例显示 中关于视觉类型的图例 QuickSight
更改标题显示 中 QuickSight 视觉类型的标题和字幕 QuickSight
更改轴范围 但是,您可以更改条柱计数或条柱间隔宽度(分布范围)。
显示或隐藏轴线、网格线、轴标签和轴排序图标 中视觉类型上的轴和网格线 QuickSight
改变视觉对象颜色 视觉类型中的颜色 QuickSight
聚焦或排除元素
排序
执行字段聚合 直方图仅使用计数聚合。
添加向下钻取

创建直方图

要创建直方图,请按照以下过程操作。

创建直方图
  1. 在分析页面上,选择工具栏上的可视化

  2. 在应用程序栏上选择添加,然后选择添加视觉对象

  3. Visual types (视觉对象类型) 窗格中,选择直方图图标:

  4. Fields list (字段列表) 窗格中,选择要在 Value (值) 字段井中使用的字段。Count (计数) 聚合会自动应用于该值。

    生成的直方图显示以下内容:

    • 默认情况下,X 轴显示 10 个条柱,表示所选度量中的间隔。您可以在下一步中自定义条柱。

    • Y 轴显示每个条柱中各个值的绝对计数。

  5. (可选)在视觉对象控件上选择 Format (格式),以更改直方图的格式。您可以按计数或宽度设置条柱格式,但不能两者同时采用。计数设置更改显示的条柱数。宽度设置更改每个条柱包含的间隔的宽度或长度。

设置直方图格式

要设置直方图格式,请按照以下过程操作。

设置直方图格式
  1. 选择要使用的直方图。它应该是突出显示的选择。视觉对象控件显示在直方图的右上角。

  2. 选择视觉对象控件菜单上的齿轮图标,查看 Format visual (设置视觉对象格式) 选项。

  3. 属性窗格上,设置以下选项以控制直方图的显示:

    • Histogram (直方图) 设置。选择以下某个设置:

      • 条柱计数(选项 1):X 轴上显示的条柱数。

      • 条柱宽度(选项 1):每个间隔的宽度(或长度)。此设置控制要包含在每个条柱中的项目或事件数量。例如,如果数据以分钟为单位,则可将其设置为 10 以显示 10 分钟的间隔。

    • 使用以下设置,您可以探索为数据集直方图设置格式的最佳做法。例如,在某些情况下,某个条柱中可能会出现很高的峰值,而其他大多数条柱的峰值却很低。这不是一个有价值的视图。您可以单独或综合使用以下各项设置:

      • 更改 X 轴设置中显示的数据点数

        默认情况下,Amazon 最多 QuickSight 显示 100 个垃圾桶(存储桶)。如果要显示更多(最多可显示 1000 个),请更改 Number of data points displayed (显示的数据点数) X 轴设置。

      • Y 轴设置中启用对数刻度

        有时,您的数据不符合您想要的形状,这可能会产生误导性的结果。例如,如果形状向右偏斜过多,而无法正确辨识,则可以对其应用对数刻度。这样做不会对数据进行标准化;但是,这确实可以减少偏斜。

      • 显示 Data labels (数据标签)

        您可以启用数据标签的显示以查看图表中的绝对计数。即使在大多数情况下不想显示这些标签,也可以在开发分析时启用它们。标签可以帮助您决定格式设置和筛选选项,因为它们可以显示出因为太小而无法呈现的条柱中的计数。

        要查看所有数据标签(即使重叠),请启用 Allow labels to overlap (允许标签重叠)

  4. (可选)更改其他视觉对象设置。有关更多信息,请参阅 在 Amazon 中格式化 QuickSight

了解直方图

虽然直方图看起来与条形图相似,其实它们非常不同。事实上,唯一的相似之处就是它们的外观,因为它们都使用条形。在直方图上,每个条形称为一个条柱或一个

每个条柱都包含一个叫做间隔的值范围。当您将鼠标暂停在某个条柱上时,有关间隔的详细信息将显示在工具提示中,其中会显示两个用图象字符括起来的数字。图象字符的类型指示其中所括的数字是否是所选条柱内的间隔的一部分,如下所示:

  • 数字旁为方括号表示包含该数字。

  • 数字旁为圆括号表示不包含该数字。

例如,假设直方图中的第一个条形显示以下表示法。

[1, 10)

方括号表示数字 1 包含在第一个间隔中。圆括号表示不包含数字 10。

在同一直方图中,第二个条形显示以下表示法。

[10, 20)

在本例中,第二个间隔包含 10,不包含 20。数字 10 不能同时包含在两个间隔中,因此该表示法显示了哪个间隔包含它。

注意

在直方图中用于标记间隔的模式来自标准数学表示法。以下示例使用一组数字(包括 10、20 以及它们之间的每一个数字)展示了可能的模式。

  • [10,20] – 这是全封闭集。它的两端都为硬边界。

  • [10,21)– 这是半开放集。它的左端为硬边界,右端为软边界。

  • (9,20] – 这是半开放集。它的左端为软边界,右端为硬边界。

  • (9,21) – 这是全开放集。它的两端都为软边界。

由于直方图使用量化数据(数字)而不是定性数据,因此数据的分布有一个逻辑顺序。这就是所谓的形状。形状通常是根据每个条柱中的计数描述形状所具有的质量。包含较多数值的条柱形成峰值。包含较少数值的条柱在图表边缘形成尾巴,在峰值之间形成低谷。大多数直方图都具有以下某种形状:

  • 非对称或偏斜分布的值聚集在左侧或右侧(X 轴的低端或高端)附近。偏斜方向由数据的较长尾巴的位置而不是峰值的位置决定。这是因为此方向也描述了均值(平均值)的位置。在偏斜分布中,均值和中位数是两个不同的数字。偏斜分布的不同类型如下:

    • 偏斜或偏斜 – 均值在峰值左侧的图表。左侧有一个较长的尾巴,右侧有一个峰值,后面跟一个较短的尾巴。以下直方图显示的就是左偏斜分布。

    • 偏斜或偏斜 – 均值在峰值右侧的图表。右侧有一个较长的尾巴,左侧有一个峰值,有时前面会有一个较短的尾巴。以下直方图显示的就是右偏斜分布。

  • 对称或正态分布的形状在中心点两侧是完全对称的(例如,钟形曲线)。在正态分布中,均值和中位数是相同的值。正态分布的不同类型如下:

    • 正态分布或单峰分布 – 有一个中心峰值代表最常见值的图表。这通常称为钟形曲线或高斯分布。以下直方图显示的就是正态分布。

    • 双峰 – 有两个峰值代表最常见值的图表。以下直方图显示的就是双峰分布。

    • 多峰 – 有三个或更多峰值代表最常见值的图表。以下直方图显示的就是多峰分布。

    • 均匀 – 没有高峰或低谷且数据分布相对均匀的图表。以下直方图显示的就是均匀分布。

下表介绍了直方图与条形图的不同之处。

直方图 条形图
直方图显示一个字段中值的分布。 条形图则会比较按维度分组的一个字段中的值。
直方图将值分类到代表一系列值的条柱中,例如 1-10、10-20。 条形图则会绘制按类别分组的值。
所有条柱的总和恰好等于所筛选数据中的全部值。 条形图则不需要显示所有可用的数据。您可以在视觉层面更改显示设置。例如,条形图可以仅显示前 10 类数据。
重新排列条形会影响整个图表的意义。 可以按任意顺序排列条形,而不会改变整个图表的含义。
条形之间没有间隔,表示这是连续数据。 条形之间有间隔,表示这是分类数据。
如果直方图中包含一条线,它表示数据的一般形状。 如果条形图中包含一条线,则称为组合图,这条线表示与条形不同的度量。