英语学霸网 英语口语练习 英语学习利器 一款词典笔的模型立异与工程实习

英语学习利器 一款词典笔的模型立异与工程实习

机器学习怎样协助英语学习?查词、翻译、标准发音都少不了:OCR(光学字符辨认)实时辨认单词与语句,NMT(神经网络翻译)主动翻译语句,TTS(语音组成)组成最真实的标准读音。那么这些是不是能集成到一个硬件中,变成智能的英语学习利器,这就是网易有道词典笔 2.0。

8 月 6 日,网易有道发布了一款全新的智能学习硬件:网易有道词典笔 2.0。该词典笔只需扫一扫就能主动辨认生词、语句,并供给对应的释义、翻译与读音。重要的是,一切这些功用都可以在离线的情况下结束,包括 NMT 完成的整句翻译。当然,这支笔不和的技能不止这些,ASR(语音辨认)和 NLU(天然言语了解)等技能也协助其完成了在线的语音辅佐问答功用。

这样集成了视觉、言语、语音体系的词典笔,才是机器学习协助英语学习的优良典范。那么小小的设备上,怎样才干集成图像辨认和翻译的离线模型,怎样才干在精确和速度间做权衡以供给最佳的运用领会?在这篇文章中,网易有道技能研发团队向机器之心介绍了词典笔 2.0 不和的中心技能。

在网易有道产品担任人吴迎晖的现场演示中,咱们可以看到词典笔 2.0 在查词、翻译和发音等功用上的特别作用。它的中心操作就是「扫一扫」,不管是纸质书本、儿童绘本,仍是产品包装盒,扫一扫就能辨认陌生单词与语句。

网易有道词典笔 2.0 的运用领会

机器之心也试用了这支词典笔,咱们在联网/不联网的情况下别离查验了划词辨认的情况,根柢上单词辨认和发音领会上都对错常精确的,短句的翻译也没啥疑问。此外,词典笔的运用非常便利,用笔头齐截下词就能看到辨认成果,划动的视点和速度也有很大的安适空间。

假定咱们读文献看到不晓得的词也可以用词典笔查,如下展示了离线情况下翻译论文语句的作用,从这儿可以看出词典笔内置的离线翻译模型仍是很凶狠的。

已然辨认和翻译作用都这么好,那么词典笔不和的技能究竟是啥样的。它为啥扫一下就能辨认单词字母,为啥能将视觉模型与翻译模型都紧缩到小小的设备中,并离线实时运转?

网易有道词典笔 2.0 的技能道路

假定咱们要完成扫一扫就能查词,那么 OCR、NMT 和 TTS 三大模块是不可以短少的。而且假定要将它们都嵌入到小小的端设备上,那么还需要许多的模型紧缩与工程实习等作业。在后文中,咱们将从 OCR、NMT 与工程实习三有些介绍有道词典笔 2.0 的技能道路。

直观而言,为了完成齐截划查词查句,笔头的高速相机每秒大约会拍照一百多张图像,这些图像要拼接在一同才干展示无缺的单词或语句图像。随后 OCR 可以将拼接的图像辨认为文字,并运用内置的词典与 NMT 模型进行处置。最终,词典笔再运用 TTS 生成词或语句的读音就行了。

全体上,词典笔体系从数据、算法到作用都比照有优势。凭仗有道词典等产品的 8 亿+用户,有道可以获得大规划文本、OCR 图像和语音的真实数据,累积的亿级高质量练习数据也能输出愈加靠近学习场景的机器学习模型。下面就让咱们看看词典笔最中心的技能与办法都是啥吧。

扫一扫辨认单词语句

作为网易有道词典笔 2.0 最为中心的技能之一,OCR 担任「看懂」图像中文字都有啥。先简略介绍下,网易有道全体的 OCR 的情况,他们的 OCR 引擎运用了干流的卷积神经网络+循环神经网络的办法,现已撑持 26 种言语文字,撑持语种主动区别和混合辨认,是当前国内辨认言语最多的 OCR 辨认引擎。全体上辨认精确率最高能抵达 99.6%。

如上展示了有道 OCR 的一个使用,一般辨认公式要比文字更凌乱一些,因为表达式的规划是多种多样的,上标、下标、分式等各种方法都存在。除了用 OCR 变换为 LaTex 表达式,后续的解题进程生作用更凌乱了。除此之外,有道 OCR 还能完成手写、迷糊文字、拼音等辨认,据有道 AI 团队介绍精确率能抵达 93%-95% 以上。此外在模型方面,有道也在探究愈加前沿的处置方案,例如测验将 Transformer 嵌入到 OCR 使命中。

据晓得,经过实验室查验数据得出,在词典笔 2.0 中,它辨认字符的精确率均匀抵达了 95.5%,抢先作业 82% 的均匀水平。

上文介绍了,有道的标准 OCR 模型现已非常强了,可是将其使用到词典笔 2.0 中还会存在许多应战,其间最大的疑问即它只能看到字符片段,滑动的进程是看不到无缺的词或句的图像。这就需求模型先要把图像拼接起来,再来做 OCR 辨认。

自习气全景拼接

简略而言,图像拼接是将存在堆叠的图像序列进行图像配准(Image registration)和图像交融(Image blending),并生成无缺图像的进程。其间图像配准是树立图像之间的对齐联络,以断定一张图像与另一张图像的空间投影联络,它是图像拼接的中心疑问。

常见的图像配准办法许多都根据特征的办法,这类办法会运用图像的归纳特征、角点检测和标准不变特征来断定图与图间的类似有些。例如根据标准不变特征的拼接办法,其进程分为特征获取、特征匹配、投影估量和图像交融,它对光照、视角、噪声和多种图像改换具有较高的鲁棒性。

可是标准办法在词典笔的使用场景中还有许多缺乏,首要是特征获取过分耗时。思考一下,假定每秒需要获取一百多张图像的特征信息,而且还只能在移动端结束,那标准 SIFT 办法推迟会有多大啊。这种推迟是不可以承受的,词典笔需要一种能在移动端处置高帧率图像的才能。

其次,比较通用的图像拼接,文字图像的归纳特征显着但纹路特征非常少,因而不一样文字中很可以存在相同的特征描绘子。例如「三」和「十」都可以包括「一」这个特征描绘子,因而很可致使使差错的匹配与对齐。

网易有道根据实践使用场景自行方案了一套特征,处置了这两大疑问,然后用自界说的方法快速获取特征。比较传统 SIFT 花 1 毫秒获取单张图像的特征,有道定制化的获取办法要高效许多。全体而言,词典笔 2.0 所选用的图像拼接办法可以分为图像配准、图像交融与文本切行三大进程。

1. 图像配准

有道词典笔将扫描图像分红若干图像块,关于每一个选择的图像块,模型会一起获取特征匹配核算多对图像块的投影估量完成图像对齐。

2. 图像交融

根据图像对齐联络,有道方案了自习气的图像加权交融算法,然后天然地交融对齐后的图像。因为实践运用中手抖或滑动速度等要素,一般办法拼接出来的作用都不会太好。但有道的图像交融能得到无重影、无接缝的无缺拼图成果,而且在多视点(与桌面夹角成 90 度至 60 度)扫描输入下体现如一。

一般办法不平稳的拼接作用。

战胜颤动、视点和滑动速度等要素得到的拼接成果。

3. 文本切行 最终,在实践运用中笔头常常会跨过多行文本,得到的拼接图像如上所示也不是洁净的。为此,有道运用一个模型来将一切字符的候选方位信息相关组行,即便在密布文本、颤动的情况下也能将方针行样本切割出来。

扫一扫翻译语句

这一次词典笔 2.0 还有一个非常强力的功用,即离线地完成整句神经网络翻译。当前有道的 NMT(简称 YNMT)可以完成中文到 12 种言语互译,英文到 9 种言语互译。翻译作用 BLEU 值高出同行一些,特别在特定查验集领域,比方新闻领域的中英文互译上作用甚至优于谷歌和微软。之前机器之心曾晓得到 YNMT 模型首要也选用 Transformer 架构,并从单语数据的使用、模型规划的调整、练习办法的改进等方面加强翻译作用。

之前 YNMT 也会选用回译、对偶学习和敌对练习等战略加强翻译成果的鲁棒性,而迩来跟着预练习技能在 NLP 领域的大力打开,有道也将预练习技能引入到了 NMT 练习中。在迩来发布的 ACL 2019 最佳长论文中,研讨者非常重视练习与揣度间的不匹配性,有道标明他们在这方面也一向有测验。有道标明这篇最佳论文比照杰出的奉献体如今选择 Sentence-level Oracle Word,因而研发团队也在进一步测验它的作用。

有道标明,经过参加 BERT 等预练习言语模型后,模型有改进。此外在模型练习时可以联系一些基础使命,例如命名实体辨认等,这种多使命学习机制对 NMT 的质量仍是很有协助的。有道一起也在探究怎样在强化学习的进程中设置适合的奖赏,然后前进翻译成果的流通度与忠诚度。

当然参加 BERT 等大模型的 NMT 体系是无法嵌入到词典笔的,有道会选用愈加精简的离线端模型,在不显着降低作用的一起极大紧缩模型。

扫一扫需要的算力撑持

尽管模型的作用非常好,但假定不能嵌入到小小的词典笔中,那么运用领会会差许多。但假定要嵌入端设备,那么如何在有限的算力下实时运转这些体系就非常重要了。有道在词典笔 2.0 中安设了 OCR、NMT 和 TTS 模型,而离线安设的最大疑问是精确率和速度之间的权衡,为此有道做了许多优化。

其实词典笔中的离线模型都是从线上模型演化而来的,且为了在给定算力的情况下实时运转,它们的规划和参数量都更为精简。此外,经过网易有道自研的离线猜测规划,开发者在保证精确率的一起能更便利地安设凳拥汶式芯片上。因而关于端侧模型安设,咱们可以从
英语学习利器 一款词典笔的模型立异与工程实习插图
模型紧缩和离线揣度东西两方面谈论。

1. 模型紧缩

模型紧缩渗透在练习和猜测各个期间。在练习进程中,有道在紧凑方案的离线网络模型上经过网络剪枝进一步精简模型,模型巨细可以紧缩近百倍;在猜测期间,有道运用了网络交融(network fusion)、低秩近似(low-rank Approximation)等技能削减核算参数量。重要的是,有道在撑持定点核算的芯片上(如高通 DSP)完成了 int8 模型量化,能在少量丢掉下得到 4 倍紧缩比的定点模型。

除了选用各种模型紧缩算法外,削减词表(NMT)、同享参数等办法也能降低模型巨细。

因而从各个层面与视点启航,机器学习模型才干在不显着影响功能的情况下大高低降低对运算本钱的需要。

2. 离线揣度规划

假定每一个模型都要一点点做优化,那么整个模型安设进程对错常冗杂的,这就需要一种能主动高质量结束这个进程的东西,这也就是有道自研猜测规划的重要缘由。

有道的离线猜测规划可以根据模型的特征做一些优化处置,包括模型紧缩、层间兼并,运用芯片撑持的向量操作指令集,调整指令实施次序和逻辑规划,前进 cache 射中率、前进内存使吃苦率等。有道在这方面做了许多作业,当前离线规划现已比照老到了,可以撑持 cpu、gpu、dsp、npu 等各种硬件平台,而且有道在端侧的工程化都根据这个规划结束。

有道自研的离线猜测规划撑持 Caffe、TensorFlow、PyTorch 等干流 DL 规划练习的模型,一起有道要点结束以下优化:

模型多规划的主动变换、一键安设模型异构芯片的主动紧缩、定点量化模型跨平台的多线程并行核算加速有道词典笔 2.0 也会持续添加新功用,例如传闻 8 月底,词典笔 2.0 就会经过 OTA 晋级的方法撑持整段翻译,这对离线端 NMT 模型又提出新的应战。最终,不管是模型办法的立异,仍是工程实习的探究,将机器学习使用到英语学习场景都对错常值得谈论的方向,网易有道词典笔 2.0 就是极好的典范。

本文来自网络,不代表英语学霸网立场,转载请注明出处。

作者: admin

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@wangzhan.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部