正北方网 > 草原人文 > 草原文化 > 正文

创新识别系统 让蒙古文插上数字化翅膀

作者:白莲 赵婕 责任编辑:张涛 2017-11-14 09:47:00 来源: 正北方网-内蒙古日报

飞龙(左一)和团队成员在一起讨论方案。

奥云蒙古文印刷体文字识别系统工作界面。

五化”协同创新驱动

党的十九大报告强调,创新是引领发展的第一动力,是建设现代化经济体系的战略支撑。

全区科技工作者以高昂的激情和饱满的热情认真学习贯彻党的十九大精神,全身心投入到科学研发和创新工作中,力争在全面建设社会主义现代化强国的新征程中,以实际行动向中国特色社会主义新时代交出一份份令人满意的成绩单。内蒙古大学计算机学院飞龙副教授“智能与蒙古文信息处理”团队研发的新型蒙古文印刷体识别系统,就是其中的一份优异成绩单。

近日,以内蒙古大学计算机学院飞龙副教授为核心的“智能与蒙古文信息处理”团队研发的新型蒙古文印刷体识别系统——奥云蒙古文OCR系统正式问世。该系统以大数据、国际上最先进的深度学习技术和云服务为设计框架,是国内首个支持多种蒙古文字体、且识别正确率和整体功能达到实用水平的系统。

目前,自治区很多单位保存有大量早期出版发行的蒙古文图书、报纸和文档,是非常珍贵的文献资源,基于这些资源利用蒙古文信息处理技术建立蒙古文大数据资源库,对蒙古语言文字信息化发展具有重要意义。飞龙告诉记者:“完成蒙古文数字化最为有效的途径是研发一款高性能的蒙古文OCR系统,并利用该系统自动实现纸质蒙古文书籍文档向电子文档资源的转换存储。系统的应用能够大量减少人员投入,降低数字化成本,显著加快蒙古文数字化速度。”

早期公开的蒙古文印刷体识别系统仅能处理蒙古文白体印刷的文档,识别精度比较低,难以满足实际应用需要。而奥云蒙古文OCR系统支持蒙古文白体、黑体、标题体、新闻体和哈旺体5种字体,文档类型包括图书、报纸、网络图像,以及PDF文件,系统识别性能和各项功能达到实用水平。而且,系统扩展性强,能够根据需要快速增加对新蒙古文字体的识别功能。

蒙古文印刷体识别是利用模式识别、人工智能、数字图像处理等技术将图片格式中的蒙古文字转换成可编辑文本格式的过程。

决定系统性能的关键是其中的识别模型,训练模型参数需要大量样本数据,最初的样本数据主要通过人工扫描和标注图片建立,极其耗时耗力,且数据规模相对较小。

2016年,飞龙提出一种全新的建立蒙古文训练数据集的方法,自动通过蒙古文字体生成训练样本集,并指导团队成员开发了自动化工具,建立了大规模训练数据集。团队采用最新的深度学习技术,设计和改进识别模型,并利用大规模样本数据完成了模型的优化,最终使得系统达到很高的精度。

从基于规则的识别模型到浅层神经网络模型,再到“长词、短词、标点”3种类型组合模型,以及后来的高并发深度学习模型……团队不断改进和发明新的框架和模型,最终确定了最高效的蒙古文OCR识别模型。

思路确定以后,实验便全面展开。飞龙和团队成员全身心投入到系统研发工作,几乎放弃了所有节假日休息时间。团队反复验证、调整技术,经过2年多努力,最终攻克了蒙古文OCR多字体识别等一系列难题,取得突破性进展,使蒙古文文字识别的研究进一步深化。

奥云蒙古文OCR系统识别准确率高,并且给用户提供了简便快捷的识别结果编辑功能,帮助用户轻松解决蒙古文图书、报纸和图片的数字化问题。

飞龙告诉记者,该系统的特点和优势体现在以下几个方面:

系统识别精度高,用户编辑方便。系统识别精度达到了实用水平,并具备智能编辑模式,自动为单词识别结果提供最优的扩展选项,用户可根据需要进行二次编辑,或拷贝粘贴识别文本。这种智能交互界面极大方便了用户编辑工作。

系统识别速度快。用户可利用系统快速上传待识别文件图像,整个图像(版面)识别过程仅需4到5秒钟,整本图书大概耗时几分钟,实时性高,可满足各类用户需要。

系统功能全面。除支持在线识别,系统还提供批量上传、离线识别、识别结果导出为双层蒙古文PDF书籍、文本文件和word文件的功能。系统具备云服务接口,开发者可利用该接口将蒙古文印刷体识别嵌入到其它相关应用。

作为系统研发核心成员,飞龙的主要研究方向是蒙古文的智能信息处理技术,包括蒙古文文本处理、语音识别、语音合成、语音检索、语义理解、信息检索、机器翻译等。近年来,他主持和参与了大量国家和自治区重点科研项目,在国内外核心期刊杂志和学术会议发表学术论文30多篇,申请发明专利4项,其中2项已授权。获得软件著作权10余项,研发了一系列蒙古文信息处理系统,包括蒙古语语音识别系统、蒙古语语音合成系统、蒙古文校正系统、西里尔蒙古文和传统蒙古文相互转换系统等,填补了蒙古文信息处理的多项空白。

党的十九大报告强调,要瞄准世界科技前沿,强化基础研究,实现前瞻性基础研究、引领性原创成果重大突破……加强国家创新体系建设,强化战略科技力量。深化科技体制改革,建立以企业为主体、市场为导向、产学研深度融合的技术创新体系,加强对中小企业创新的支持,促进科技成果转化。倡导创新文化,强化知识产权创造、保护、运用。飞龙说:“党的十九大报告深深地激励着我这个年轻的科研工作者、大学老师,我要认真学习贯彻党的十九大精神,在瞄准世界科技前沿的同时,更应该进一步强化蒙古文信息化的研究,并努力建立产学研深度融合的体系,成为成果转化的实践者,为全国少数民族信息化建设奉献自己的力量。”

欢迎加入"99街"微信报料,微信公众号:nmg_99jee

新闻热线:0471-6635129 点击这里给我发消息

声明:

一、凡注明来源为"正北方网"的所有文字、图片、音视频、美术设计和程序等作品,版权均属内蒙古正北方网或相关权利人专属所有或持有所有。 未经本网书面授权,不得进行一切形式的下载、转载或建立镜像。否则以侵权论,依法追究相关法律责任。

二、凡本网注明"来源:XXX(非正北方网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

三、转载声明:本网转载稿件有些作者不明,请相关版权单位或个人持有效证明速与本网联系,以便发放稿费。

正北方网联系方式:

电话:0471-6635129 | E-mail:northnews@126.com

  • 呼和浩特旅行攻略
  • 鄂尔多斯东街的井盖子又冒出来了!
  • 好好树就被拔了
  • 小黑河呼伦桥上的大窟窿