这篇文章回顾了基于TCN的解决方案的最新创新。我们首先介绍了一个运动检测的案例研究,并简要回顾了TCN架构及其相对于传统方法的优势,如卷积神经网络(CNN)和递归神经网络(RNN)。然后,我们介绍了一些使用TCN的应用,包括改进交通预测,声音事件定位和检测,以及概率预测。
简单回顾一下TCN
Lea等人(2016)的开创性工作首次提出了用于基于视频的动作分割的时间卷积网络(tns)。这个传统的过程包括两个步骤:第一,使用(通常)编码时空信息的CNN计算低级特征;第二,使用(通常)RNN将这些低级特征输入到一个获取高级时间信息的分类器中。这种方法的主要缺点是它需要两个独立的模型。TCN提供了一种统一的方法来以层次的方式捕获所有两个级别的信息。
编码器-解码器框架如图1所示,最关键的问题如下:TCN可以接受任意长度的序列,并将其输出为相同长度。因果卷积在使用一维全卷积网络结构时使用。一个关键的特征是t时刻的输出只与t之前的元素进行卷积。
随着严等人(2020)最近发表的有关TCN用于天气预报任务的研究成果,TCN上甚至出现了有关TCN的讨论。在他们的工作中,进行了TCN和LSTM的对比实验。他们的结果之一是,在其他方法中,TCN在时间序列数据的预测任务中表现良好。
改善交通预测
拼车和在线导航服务可以改善交通预测,改变道路上的生活方式。更少的交通堵塞,更少的污染,安全和快速的驾驶只是几个例子的基本问题,可以实现更好的交通预测。由于这是一个实时数据驱动的问题,有必要利用即将到来的流量积累的数据。为此,Dai等人(2020)最近提出了一种混合时空图卷积网络(H-STGCN)。一般的想法是利用分段-线-流-密度关系,将未来交通量转换为其等效的旅行时间。他们在这项工作中使用的最有趣的方法之一是图形卷积来捕捉空间依赖性。复合邻接矩阵捕获了流量近似的固有特征(更多信息,请参见Li, 2017)。在接下来的架构中,我们提出了四个模块来描述整个预测过程。
声音事件定位和检测
声事件定位和探测领域(SELD)继续增长。了解环境在自主导航中扮演着关键的角色。Guirguis等人(2020)最近提出了一种新的声音事件SELD-TCN体系结构。他们声称,他们的框架比该领域最先进的,训练时间更快。在他们的SELDnet(结构如下)中,一个采样为44.1 kHz的多通道音频记录,通过应用短时傅里叶变换,提取出频谱的相位和幅度,并将其作为单独的输入特征堆叠起来。然后连接卷积块和循环块(双向GRUs),再连接全连通块。SELDnet的输出是声音事件检测(SED)和到达方向(DOA)。
SELD-TCN:
由于扩展的卷积使网络能够处理各种输入,因此可能需要更深入的网络(在反向传播过程中会受到不稳定的梯度影响)。他们通过采用WaveNet (Dario et al., 2017)架构来克服这一挑战。他们表明SELD任务不需要循环层,并成功检测到活动声音事件的开始和结束时间。
概率预测
Chen et al.(2020)设计的一种新的框架可以用于估计概率密度。时间序列预测改进了许多业务决策场景(例如,资源管理)。概率预测可以从历史数据中提取信息,将未来事件的不确定性降到最低。当预测任务是预测数以百万计的相关数据系列时(就像在零售业务中一样),它需要令人生畏的劳动力和计算资源来进行参数估计。为了解决这些难题,他们提出了一种基于cnn的密度估计和预测框架。他们的框架可以了解到序列之间的潜在相关性。他们工作中的新奇之处在于他们提出的深层TCN,正如在他们的架构中所呈现的:
编码器-解码器模块的解决方案可以帮助设计实际的大规模应用。
总结
在这篇文章中,我们介绍了最近的工作,包括时间卷积网络,比经典的CNN和RNN方法更好地完成时间序列任务。
参考文献
Lea, Colin, et al. “Temporal convolutional networks: A unified approach to action segmentation.” European Conference on Computer Vision. Springer, Cham, 2016.
Lea, Colin, et al. “Temporal convolutional networks for action segmentation and detection.” proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
Yan, Jining, et al. “temporal convolutional networks for the Advance prediction of enSo.” Scientific Reports 10.1 (2020): 1–15.
Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).
作者:Barak Or
deephub翻译组