通过随时间重复测量收集的一组观察结果称为时间序列数据。时间序列分析用于数据挖掘、模式识别和机器学习中的分组、分类、按内容查询、异常检测和预测。
为了帮助洞察提取、趋势分析和异常检测,时间序列数据可以用多种显示方式表示。
序列中的长期变化称为“时间序列模式”。可以通过多种方式计算相关性,具体取决于它是作为趋势、季节性模式还是循环模式(线性、指数)进行测量。
时间序列成分
以下是负责引起时间序列变化的变量,也称为时间序列成分:
- 长期/总体趋势
- 季节性运动
- 周期性运动
- 不规则波动
长期趋势
时间序列的长期趋势是从社会经济和政治问题的长期影响中出现的主要组成部分。这种趋势可以描述时间序列的长期增长或下降。这种趋势会持续很长时间。例如,出口和进口的价格和数据随时间推移显示出明显的增长趋势。
季节性运动
这些是在短时间内发生的季节性数据波动。短期通常被定义为一个时间跨度,在此期间时间序列会因天气或节日事件而发生变化。例如,众所周知,冰淇淋的消费量在夏季最高,因此冰淇淋供应商的销售额在一年中的不同月份较高,而在冬季较低。天气的变化会影响就业、产出、出口和其他因素。同样,在情人节、开斋节、圣诞节和新年等节日期间,服装、雨伞、贺卡和烟花的销售也容易出现巨大波动。只有当时间序列每半年、每季度或每月提供一次时,这些类型的变化才会被隔离。
循环运动
时间序列中的长期振荡就是这些。这些振荡在经济数据中最为常见,其周期通常为五至十二年或更长时间。众所周知的商业周期与这些波动有关。如果有一系列没有异常干扰的冗长数据可用,则可以分析这些循环运动。
不规则波动
这些是时间序列中不太可能再次发生的意外变化。它们是时间序列元素,无法用趋势、季节性或周期性运动来解释。残差或随机成分是用来描述这些差异的术语。这些差异虽然是无意的,但有可能在即将到来的时期内产生趋势的持续变化以及季节性和周期性振荡。这种异常是由水灾、火灾、地震、革命、流行病、罢工等自然灾害引起的。
讨论机器学习中不同类型的时间序列场景
时间序列数据有两种形式:
- 固定
- 非固定
固定时间序列数据
如果没有时间序列的趋势、季节性、周期性和不规则性成分,数据集应遵循以下经验法则。
- 在分析过程中,它们的MEAN值在数据中应该是完全恒定的。
- 关于时间范围,VARIANCE应该是恒定的。
- COVARIANCE是评估两个变量之间关系的指标。
白噪声序列是静止的,从某种意义上说,无论您何时查看它,它看起来都应该是一样的。一般来说,静止的时间序列随着时间的推移没有可预测的模式。在时间图上,该系列看起来通常是水平的(具有一些循环行为),具有恒定的方差。
非平稳时间序列数据
趋势、周期、随机游走以及三者的组合都是非平稳行为的例子。根据定义,非平稳数据是意外的,无法预测或建模。使用非平稳时间序列获得的结果可能是虚构的,暗示两个不存在的变量之间存在关系。必须将非平稳数据转化为平稳数据,以获得一致、可靠的发现。