跳转到主要内容

category

我拖延了几年才深入研究Transformers 。最后,不知道是什么让它们滴答作响的不适感对我来说太大了。
2017年的这篇论文中引入了转换器作为序列转导的工具——将一个符号序列转换为另一个。最常见的例子是翻译,比如从英语翻译成德语。它也被修改为执行序列完成——给出一个开始提示,以相同的方式进行。它们已迅速成为自然语言处理研究和产品开发中不可或缺的工具。
在我们开始之前,先提醒一下。我们将深入探讨矩阵乘法,并探讨反向传播(用于训练模型的算法),但您无需事先了解任何相关内容。我们将逐一添加所需的概念,并附上解释。
这不是一次短途旅行,但我希望你会很高兴你来了。

  • ► 一种热编码
    ► 点积
    ► 矩阵乘法
    ► 矩阵乘法作为表查找
    ► 一阶序列模型
    ► 二阶序列模型
    ► 带跳跃的二阶序列模型
    ► 掩蔽
    ► 休息站和出口匝道
    ► 注意矩阵乘法
    ► 作为矩阵乘法的二阶序列模型
    ► 序列完成
    ► 嵌入
    ► 位置编码
    ► 去嵌入
    ► 软最大值
    ► 多头注意力
    ► 重新审视单头注意力
    ► 跳过连接
    ► 多层
    ► 解码器堆栈
    ► 编码器堆栈
    ► 交叉关注
    ► 令牌化
    ► 字节对编码
    ► 音频输入
    ► 资源和信用

原文:https://e2eml.school/transformers.html