文本信息识别(IR)的历史
IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。
就其目的而言,IR和IE的不同可表达如下:IR从文档库中检索相关的文档,而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具。
IR和IE不单在目的上不同,而且使用的技术路线也不同。部分原因是因为其目的差异,另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响。
文本信息抽取(IE)
自动信息检索已是一个成熟的学科,其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一是"消息理解研讨会"(MUC)近十几年来对该领域的关注和推动。
IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差。
八十年代以来,美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。
研讨会的目的是探求IE系统的量化评价体系。在此之前,评价这些系统的方法没有章法可循,测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题,评分标准也随之制定出来。各届研讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。
过去五、六年,IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过MUC用现有的技术水平,我们已有能力建造全自动的 IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来,每届最高组别的有些任务,其成绩一直没有提高(但要记住MUC的任务一届比一届复杂)。一个显著的进步是,越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前,建造能达到如此高水平的系统需要大量的时间和专业人员。另外,目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。
《瞬速文本数据抽取与分析系统》正是基于各行业的数据抽取需求而进行研发通用文本信息抽取与分析系统。系统基于.Net+VC+(SQLServer、Oracle、MySQL)技术架构的开发的文本数据抽取与分析系统。系统通过预置的数十种抽取规则作为基础规则(如人名、地名、机构、手机号、邮编、性别、年龄、身份证号等),通过与扩展规则(如接警员*{人名}),死亡人数*{人数}等)进行结合抽取用户感兴趣的扩展信息。通过对抽取后的结构化信息结合其它的数据源进行统计分析、数据预警等。以使得沉淀的文本数据发挥最大的价值。系统主要的功能特性:
1) 支持采集数据源多
系统支持从多种数据源抽取数据。可以支持从数据库的文本字段中抽取信息;支持从EXCEL、CSV、ZIP压缩文件中导入文本数据;支持从网络采集文本信息;支持从WebService中读取数据。
采集的数据时支持全量和增量两种形式。全量采集一般适用于初始数据抽取,数据采集时会根据数据源、数据字段等信息对数据进行查重,以保证不会把重复的文本信息采集过来。增量采集是指对数据源上的数据当有发生更新才采集过来进行抽取分析。
2) 预置常用抽取规则
系统中预置了数十种的常见的抽取字段,主要有:
字段名称 |
字段类型 |
说明 |
人名 |
字符型 |
|
地名 |
字符型 |
|
机构名 |
字符型 |
|
产品名 |
字符型 |
|
产品型号 |
字符型 |
|
人数 |
整型 |
|
货币 |
整型 |
|
银行卡 |
字符型 |
|
IP地址 |
字符型 |
|
车牌号 |
字符型 |
|
日期时间 |
字符型 |
|
省份 |
字符型 |
|
市名 |
字符型 |
|
区县 |
字符型 |
|
街道 |
字符型 |
|
电话号码 |
字符型 |
|
手机号码 |
字符型 |
|
经纬度 |
字符型 |
|
用户如果在设置抽取规则时,可以简便地从预置的规则中选择已有的规则。
3) 支持扩展抽取规则
除了抽取常用的字段信息外,抽取模块还需要能够抽取扩展字段。所谓的扩展字段就是一些不常见的字段。如有些文本中包含有血型信息,而且些文本中包含有身高,另外一些文本则包含有作案人祖籍。这些类型的信息在不同的文本出现的概率是不一样的。为了信息抽取的可扩展性,系统需要能够对文本信息进行扩展抽取,完全是根据用户的需求而定。如用户需要从大量的文本中抽取血型,就可以配置血型的抽取。通过设置扩展规则可以满足应用的更具体的要求。
4) 支持数据联想抽取
系统对一些抽取到的数据进行联想抽取,如抽取到IP地址后,可以自动分析出IP地址所在的物理位置。又如抽取银行卡信息可以自动联想到该银行卡所在的银行名称,银行所在的行政区划信息等。
5) 带丰富的图表控件
系统可通过与图表控件的相结合后,提供了数十种图表控件。通过控件与抽取的数据进行分析后,使得原本纯粹的数据变得可视化。
6) 支持多种数据分析
系统提供除了提供有常见的图表分析外,还有多数据分析手段,如数据关联分析、数据聚类分析、数据预测等功能。
7) 支持数据分类预警
数据预警是对一种时效性要求很高、重要程度要求很高的精准文本抽取分析功能。数据预警包括监测和预警两个过程,当系统监测到某类文本信息后将及时发出预警,让相关人员第一时间掌握实时文本抽取状况。