问题: Transformer架构中,用于解决模型无法捕捉序列顺序信息的关键技术是?
A: 残差连接(Add&Norm)
B:多头自注意力机制
C:位置编码(正弦/余弦函数实现)
D:前馈神经网络层
微信扫码获取一对一帮助