但是,随着计算机技术的发展,我们发现自然语言的理解和合成机制比最初设想的要困难得多,这种困难主要不在计算机方面,而在自然语言方面。计算机科学近几十年己经取得了重要进展,但自然语言理解的工作进展并不显著,原因就在于我们对自然语言的运转规律认识远远不够,我们平时司空见惯的言谈说话,实际上是一个相当复杂的心智活动过程。
人们最初想用马尔柯夫过程(Markov process)来理解和合成自然语言。马尔柯夫过程是一类重要的随机过程,其原始模型为马尔柯夫链,由俄国数学家马尔柯夫1907年提出的。马尔柯夫过程的基本思想是:一个事件在己知的目前(现在)状态下,它未来的演变(将来)不依赖于它以往的演变(过去)。但是,经过实际的实验和研究自然语言的组合过程比马尔柯夫过程要复杂。在自然语言的理解和合成过程中,要求计算机能够识别组词成句的层次。当一个句子有两个不同的层次时,就存在歧义。
NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
自然语言理解面临个一难题,即元语言问题,这也是哲学家和心理学家甚为关注的问题。要完成自然语言理解工作,必须要有一套语法语义规则,还要有一个庞大的词库,词库中既有被解释被描写的词(对象语言),也有用来解释和描写的词(元语言)。
NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,包括:全文精准检索、新词发现、分词标注、统计分析与术语翻译、文本聚类、分类过滤、正负面分析、自动摘要、关键词提取、文档去重等十多项功能模块。用户可以使用该软件对自己的数据进行处理。
自然语言理解目前在语音识别、语音合成、文字输入、信息检索方面取得了重要进展,在NLPIR大数据技术的帮助下句子的理解和合成方面语义问题也的到了改善,语言是观察心智活动最重要的窗口,我们对语言的运转机制有了更深入的认识,对人的心智活动过程也有了相当深入的了解。