思必驰荣获IWSLT 2022英中同声传译冠军 _金融

思必驰荣获IWSLT 2022英中同声传译冠军

2022-06-14 09:33:38 来源:互联网

在2022年国际白话机械翻译评测比赛(简称IWSLT)中,思必驰-上海交大年夜结合团队(AISP-SJTU)凭借卓越的技巧优势,获得“英-中同声传译”(Speech-to-Text)赛道冠军。

2022年第十九届国际白话机械翻译大年夜会(International Conference on Spoken Language Translation ,简称 IWSLT)在爱尔兰都柏林落幕。IWSLT是国际上最具影响力的白话机械翻译评测比赛之一,本年设置了同声传译、离线语音翻译等7个义务。思必驰-上海交大年夜结合团队(AISP-SJTU)本次参加英-中同声传译义务,以优良的成就获得Speech-to-Text赛道第一名。

义务和背景

同声传译是仅在部分语音或文本输入的情况下,慢慢生成翻译成果的义务。同声传译包含两个子义务:

1)Text-to-Text,将流式语音辨认(ASR)体系的输出文本及时从英语翻译成中文通俗话;

2)Speech-to-Text:将英文语音及时翻译成中文通俗话文本。

1)级联技巧。即全部体系由ASR体系和翻译(MT)体系构成,输入源说话音频旌旗灯号,先经由ASR体系转写成源文本,再经由MT体系翻译为目标说话。

图1. 级联语音翻译

同声传译的体系经由过程两种方法进行评估:

1)翻译质量,应用标准BLEU指标评估;

今朝同声传译义务重要有两种技巧路线:

2)翻译延时,应用流式翻译的标准指标进行评估,包含平均比例(AP)、平均滞后(AL)、可微平均滞后(DAL)。

最后,比赛主办方根据不合延时范围的翻译质量对提交的同声传译体系进行排名。对于英-中同声传译体系,延时范围设置为:

1)低延时,AL<=2000毫秒;

2)中延时,AL<=3000毫秒;3)高延时,AL<=4000毫秒。

数据和数据处理

文本数据预处理

比赛方供给大年夜量的双语语料和单语语料,经由过程规矩过滤和匹配模型筛选出优质的文本数据。规矩过滤包含:太长的单词,长度严重掉衡的中英双语句子,过滤带HTML标签的句子,删除反复等等。别的,练习一个分类模型,过滤语义不匹配的真实双语和伪双语数据。

文本数据扩增

数据加强是晋升模型后果行之有效的筹划。起首应用真实双语数据练习中-英和英-中离线模型。然后这两个离线模型分别生成中文单语和英文单语的伪双语数据,用于回译和常识蒸馏。最后,让翻译模型在ASR生成的伪双语数据长进行微调,来晋升翻译模型的鲁棒性。文本数据统计如下:

表1. MT练习数据

语音数据处理

比赛主办方供给了6个英文语音数据集,共3000小时。采取传统的语音特点提取办法FBank,特点维度设置为80,每帧窗口大年夜小25毫秒,窗口滑动步长10毫秒。

语音数据扩增

表2. ASR练习数据

技巧解读

思必驰-上海交大年夜团队初次参加这类语音翻译比赛,在充分总结前人经验的基本上,积极开辟立异,下面对其关键技巧进行解读。

技巧1:引入预练习说话模型,大年夜幅晋升ASR机能

近年来,预练习说话模型(LM),例如BERT,在NLP范畴大年夜放异彩,尤其在低资本场景,LM感化加倍明显。若何将说话模型引入ASR模型呢?起首看一下ASR的模型构造,如下图

图2. 端到端语音翻译

图3. ASR模型和E2E模型构造

ASR模型整体是transformer架构,然则Decoder拆分为Jointer和Predictor,个中,Predictor仅包含6层单向自留意力机制,Jointer仅包含6层交叉留意力机制。预练习说话模型可以替代Predictor,从而ASR的解码端可以充分应用大年夜数据的优势,晋升解码才能。与传统的预练习说话模型BERT比拟,这里的说话模型须要做两方面的改变:

1)将传统的双向自留意力机制改为单向留意力机制;

2)猜测目标改为猜测下一个token。用表1中的数据练习分别练习一个中文说话模型和英文说话模型,并分别用于端到端模型(E2E)和ASR模型,实验注解,增长LM后对二者均有大年夜幅晋升。

表3. 预练习说话模型后果

技巧2:无穷左看,随机右看

流式翻译模型的编码端一般应用单向留意力机制,进一步地,可以设定一个固定的右看窗口,实现部分双向留意力机制,来晋升编码才能,如图4,每个token都可以“看”到所有左侧内容,即无穷左看,但只能往右看到2个token。本次比赛在CAAT[1]模型的基本上做了更进一步的改进,提出Dynamic-CAAT,即在练习过程中,将固定的右看窗口设为随机取值,在猜测过程中,当有新token输入时,应用双向留意力机制从新计算所有token编码。

2)端到端技巧。即体系直接将源说话音频翻译为目标说话文本,不生成中心字符。相对于级接洽统上亿的数据范围,端到端体系的练习数据极其匮乏,导致其后果远低于级接洽统。

经由过程增长音频扰动的办法来获得扩增音频,包含声音大年夜小、速度、基线扰动等。除了CoVoST2这个数据集扩增1/3,其他数据集的音频数据扩增3倍。音频数据统计如下:

图4. 翻译模型编码端留意力机制

实验注解,Dynamic-CAAT在各类延时级别上都有后果。如许全部体系只须要一个翻译模型,而不是练习多个模型来适应不合的延时范围。

图5. Dynamic-CAAT的后果

评测成果

IWSLT 2022综述文章中[2],主办方给出的英-中评测成果显示思必驰-上海交大年夜团队(AISP-SJTU)提交的体系在低、中、高三个延时范围内,都跨越第二名约2BLEU(具体实验数据见综述文章143页)。

图6. speech-to-text英-中评测成果

总结

本次比赛,结合各类技巧手段打造了英-中同声传译最优基线,也对端到端模型做了初步摸索。端到端模型在速度和误差传导上比级联模型更占优势,是以,将来我们欲望进一步研究有效的数据扩增手段,来晋升端到端模型的翻译后果。

（责任编辑:ysman）

思必驰荣获IWSLT 2022英中同声传译冠军

推荐频道