关于本站 联系本站 English
首页
| 登录论坛|
| 新闻 | 观点 | 本地化 | 培训 | 测试 | 招聘 | 国际化 | 知识库 | 专题 | 会员区 | 本站月报 | 关于本站 | English |
用户: 密码: 验码:    
栏目导航 网站首页>>观点>>其它

旋转语言大数据的魔方—— 评搜狗战略投资UTH国际
  发表日期:2017年8月17日  共浏览1775 次   出处:本地化世界公众号    作者:崔启亮  【编辑录入:giltworld
     字体颜色:    【字体:放大 正常 缩小】  【双击鼠标左键自动滚屏】 【图片上滚动鼠标滚轮变焦图片】 

2017815日,北京搜狗信息服务有限公司与上海佑译信息科技有限公司(UTH国际)的战略投资签约仪式在上海举行。搜狗公司搜索事业部总经理许静芳女士与UTH国际董事长兼首席执行官杜金林先生正式签约,共同宣布UTH国际完成B4200万元人民币融资。本次投资由北京搜狗信息服务有限公司战略领投,杭州海沣投资管理有限公司等机构跟投。


这则新闻引起了我很大关注。我热烈祝贺UTH国际和搜狗之间的战略投资,它将加强人工智能与跨语言大数据的融合应用,扩展跨语言大数据的应用场景,促进跨语言跨文化交流。抛开行业职业因素,我积极关注这则新闻的另一个重要原因是个人原因。杜金林先生是我的老同事和老朋友,我们10年前机缘巧合走到一起,10年后还在彼此密切交流。多年来,他对事业的无限热情、敏锐前瞻、高效执行、锐意进取的职业态度深深影响着我,成为激励我不断学习的榜样。

20073月的一个普通夜晚,杜总约我在MSN上在线聊天(那时还没有出现微信)。我此前不认识杜总,本地化行业的前辈告诉我,杜总是国内本地化行业的资深人士, 20世纪90年代初期进入本地化外企工作,其中包括著名的ALPNET(现在的SDL)、Lionbridge等企业,并在多家公司担任高级管理岗位。那晚的聊天改变了我的职业发展轨迹,我决定从北京莱博智公司(Lionbridge)辞职,2个月后与杜总等开始成立昱达公司,走上创业之路。

经历了创业的艰辛,才能体会到人生的色彩。5年后的昱达公司已经走上了健康发展的道路。后来杜总加入华为全球化部门,担任本地化高级顾问。2012年的春天,机器翻译行业应用的曙光初放,杜总跟我说他要到上海二次创业,我知道杜总志向远大,昱达无法实现他的梦想,我鼓励他继续追随梦想。我选择继续坚守昱达,并开始投身中国高校的本地化人才教育工作,这也是我多年的兴趣所在。

此后,我每次到上海出差,只要有时间,我都到UTH国际公司参观,与杜总和他的同事们交流。每次都能看到UTH国际的快速发展,特别在跨语言大数据方向上的持续努力和取得的一系列成就,UTH国际在跨语言大数据领域的深耕细作,从成立之初就收到资本的青睐,从初期的天使投资,到鼎晖资本、老板实业集团的多轮投资,以及本次搜狗的战略投资,我感到欢欣鼓舞。我也感受到杜总从创业初期的激情澎湃,转为现在的淡定从容,这5年改变的不仅是岁月,还有他对人生事业的思考。

2012年到2017年,是人工智能和大数据领域快速发展的5年。有人在时代大潮冲击下茫然失措,找不到前进的方向。有人拥抱变化,激流勇进,成为时代弄潮儿,笑傲江湖。

互联网、大数据、全球化、走出去是当前全球和中国发展的社会现实。随着各国经济、贸易、文化、科技等领域的深度交流,跨语言交流成为阻碍人们自由交流的障碍。发展一带一路构想,实现政策沟通、设施联通、贸易畅通、资金融通、民心相通,关键和难点在于民心相通,阻碍民心相同的是不同国家和民族的语言,语言是文化和文明的载体。

在突破跨语言交流的各种努力中,互联网+跨语言大数据已经实现了突破,并且还将在快速发展中,显示跨语言大数据的巨大力量。马云开始提出当前已经从信息技术时代进入数据时代,谁拥有数据,谁就拥有未来。上周在成都召开的语言服务行业大会上,多位行业专家提出人工智能语言服务技术的发展速度,影响着一带一路构想的实施广度。

在跨语言人工智能领域,特别是自然语言处理领域,机器翻译是此领域最活跃的分支,被称为自然语言处理皇冠上的明珠,其对人类语言、文化、文明交流的巨大作用,引来科技界、学术界、投资界、政府的积极投入。20169月,谷歌公司发布了神经机器翻译系统,以良好的译文质量、快速的翻译能力,成为当今机器翻译研究和应用领域的新方向。国内外此领域的领导企业都在积极推动机器翻译的发展,搜狗、百度、阿里、腾讯、讯飞、微软、脸书等公司都加速研发投入,进行战略布局。



数据、算法、模型是决定机器翻译系统译文质量的三个核心因素。问渠哪得清如许? 为有源头活水来。机器翻译引擎的训练需要大量的高质量的语料数据,特别是垂直领域的标记化、结构化、标准化的平行语料数据。UTH国际从成立之初,就把获取和处理高质量的垂直领域的多语言语料作为重点业务领域,并以此为基础,研发适合企业、高校、个人的跨语言产品和解决方案,凭借创业者和优秀行业团队的不懈努力,已经取得了多项成果,获得了多项专利技术。

在互联网时代,科技界和学术界密切交流,机器翻译的算法和模型基本公开透明,短期内无法实现创新性重大突破,数据最有可能成为提高机器翻译译文质量的要素。但是,由于平行语料都散落在不同机构和个人的电脑中,使得海量多语言数据收集成为世界难题。UTH国际正式看到这个现状,才持续努力改善现状,成为全球多语言数据收集和处理的领先者。

根据UTH国际提供的数据,UTH 国际与全球上万家机构、组织和个人建立合作伙伴关系,UTH国际现有的语料85%来源于从全球专业机构进行采购,15%  UTH 国际专职信息工程师和语料专员,通过对开源信息的整理加工对齐后获得。至今已经积累了87亿句对的双语语料库(全球最大的垂直多语大数据库),覆盖“一带一路”沿线国家官方语言中的33种语言,覆盖法律、金融、生命科学、制造业、航空航天、交通运输、信息通讯、政府/非政府组织、教育等15个一级领域,41个二级领域,178个三级领域。

实际上,UTH国际从成立之初就制定了“三步走”的发展战略。第一步,构建几十亿句对的高质量语料库作为公司发展的基础设施,努力成为全球领先的多语言大数据提供商。将这项工作从2012年起步,2014年快速发展,2016年提前超额完成计划。第二步,加快语言应用技术创新和科技成果转化,为国家一带一路构想服务,服务省市“智慧城市”信息化建设,为推动企业“走出去服务,推动高等院校翻译与外语人才培养UTH国际从2014年开始以语言大数据构建的基础设施为基础,凭借独有的语言处理专利技术,加强语言人工智能技术研发,加强应用型产品研发,与多个自然语言处理实验室加强技术合作,发布了“芝麻”系列语言大数据产品,包括芝麻翻译、芝麻搜索、芝麻译库、芝麻秘语、芝麻发布,为高等教育、科研院所、语言服务提供商、语言服务需求方、跨境电商、影视传媒、文化旅游、人工智能等多个方向和领域提供高端应用和服务。第三步,将服务领域向语言大数据产业上游发展,以专门用途语料数据库为依托,开发多语垂直信息内容设计与编辑的开放式、智能化和交互式平台。当前已经发布了涉外法律文本写作与翻译平行语料库、“一带一路”旅游与酒店管理多语种语料库等。


搜狗公司是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。2016年,搜狗研发出国际领先的搜狗机器翻译系统。该系统运用了最前沿的基于深度学习的神经网络机器翻译框架,可通过理解上下文语境给出精准的翻译结果。20175月,搜狗机器翻译系统在国际顶级机器翻译WMT (Workshop on MachineTranslation)会议的中译英项目译文质量评测中荣获世界冠军,其中八项机器翻译译文评价指标,搜狗获得七项第一,并获得主要机器翻译译文质量评价指标BLEU(Bilingual EvaluationUnderstudy)第一名。

搜狗机器翻译系统的良好表现得益于采用深度循环神经网络编码解码框架技术(Deep Recurrent Neural Network Encoder-Decoder)作为主要技术,使用完全端到端的学习方式。此外,搜狗在比赛系统中还使用多个NMT模型集成技术,针对生成的N-best结果,引入更多模型(例如语言模型)等特征对模型生成的多个候选结果进行重排序,选出更好的后续结果,充分体现出其在人工智能实用化的领域卓绝的技术。

但是,与国内外其他机器翻译的研发公司一样,搜狗也面临着缺乏高质量、多语种、多领域的语料困扰,成为进一步提高机器翻译质量的瓶颈。例如,这次WMT全球机器翻译系统译文质量评测中,搜狗机器翻译虽然在中译英项目上获得冠军,但是英译中,中文到法语、德语、西班牙语等,法语到德语、英语到西班牙语等外文之间的翻译质量还有待提高。其中,缺乏这些语言之间的高质量的、大数量的、行业特定的语料库是短板之一。因此,搜狗这次对UTH国际的投资之所以称之为“战略投资”,就是看中了UTH国际在跨语言大数据领域的突出优势,力图实现强强联合、优势互补、战略合作、共建未来。

搜狗此次战略投资UTH国际,搜狗接入UTH国际的多语言大数据中心,将加速推动搜狗在人工智能自然语言理解方面的产品研发和全球化布局,是UTH国际发展“三步走”的第一步的阶段性成果,也是向第二步发展的先导性工作。基于UTH国际在特色垂直语料库方面的高质量语料积累,搜狗后续可为更多专业领域提供更加精准、丰富的翻译搜索结果,凭借领先的人工智能技术及丰富多样的翻译类产品,将中文世界与全世界连接。

UTH国际通过此次战略融资,将进一步挖掘语言大数据的应用场景,增强“互联网+语言技术”领域的独特优势,加快基于互联网跨语言服务的大数据产品研发,积极服务国家“一带一路”构想和企业“走出去”战略,有效推动中国企业的国际化和走向世界。

当互联网进入大数据时代,连接和融通为时代弄潮儿搭建了更宽广的舞台。跨越语言障碍,实现人类自由沟通,是有志之士追求的目标。UTH国际和搜狗是这个群体的杰出代表,这次战略投资是双方发展的机遇,期待携手创造更多地奇迹。追求卓越,超越梦想,再创辉煌!

 

崔启亮

2017816


作者简介:

崔启亮,对外经济贸易大学国际语言服务与管理研究所副所长,中国翻译协会本地化服务委员会副主任,北京昱达环球科技有限公司联合创始人。中国语言服务行业的实践者、研究者和传播者,具有多年软件本地化、翻译技术、软件测试等领域的工作经验,编著出版8部专业著作。


上一篇:科技术语中字母词的规范化问题
下一篇:

 相关专题:

·专题1信息无

·专题2信息无
 
  热门文章:
 · 缺陷管理工具Bugzill [30392]
 · 2007年全球翻译公司25 [29661]
 · “本地化世界网”介绍 [26425]
 · 使用Trados翻译XML [24883]
 
 相关文章:

·没有相关文章

相关评论:(评论内容只代表网友观点,与本站立场无关!)
相关评论无
发表、查看更多关于该信息的评论 将本信息发给好友 打印本页
关于本站 | 网站历程 | 使用声明 | 网站地图 | 联系本站 |
本地化世界网版权所有,版权所有2003-2008
京ICP备05035404号
网站统计:    论坛统计:
页面执行时间:156.250毫秒