【基础知识】时序特征融合(注意力机制)

基础知识:注意力机制

  1. 注意力机制的理解?
    https://www.bilibili.com/video/BV1nL4y1j7hA/?spm_id_from=333.788&vd_source=1add2a1cdc6ef25fe4c3eb2a25bf292a
    这个up主对于注意力公式的讲解非常容易理解和记忆。基本公式如下:
    在这里插入图片描述

  2. 注意力机制和自注意力机制的区别:
    https://www.bilibili.com/video/BV1tL4y1j7pN/?spm_id_from=333.788&vd_source=1add2a1cdc6ef25fe4c3eb2a25bf292a
    注意力机制是一种机制,用于在输入序列中对不同位置的信息分配不同的权重。主要关注输入元素与外部/全局元素之间的关系。
    自注意力机制是注意力机制的一种特殊形式,其中查询、键和值都来自于同一组输入序列。主要关注输入序列中不同元素之间的关系。

  3. 多头注意力机制
    https://www.bilibili.com/video/BV1PP4y1T7Yu/?spm_id_from=pageDriver&vd_source=1add2a1cdc6ef25fe4c3eb2a25bf292a
    理解:相当于卷积神经网络中的多个kernel,多个kernel可以学习多种特征表达。
    实现:在视频目标检测中,通过拆分通道来实现。比如:当前帧和参考帧的图像通道数是1024,假设8头的话(N=8),图像就会被拆成8个128通道的特征,并对每个特征分别进行注意力。

  • 视频目标检测中的时序特征融合