信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
如以下一段报案文本:
2006-2-9 1:12城区文昌路火车站对面,十分前,张青被两名男子驾驶男装,牌照为粤A35621摩托车飞车抢走一台手机和钱包一个,号码:13679X15300,现金约600元,身份证一张:5103151XX603277117两名行为人其中一个穿黑色衣服,留长发,得手后往乐安方向逃跑,其它不详。 接警员:黄亮,1:16:57 - 通报路面巡警交警注意发现. 通知辖区巡警(469)前往处理,复地址清楚。 1:17:39 - 通报南海110(3926号)协查. [南海110_梁敏英_060209 01:20:27] 通报路面警力注意发现。
可以抽取出以下的表格:
字段 |
值 |
发案日期 |
2006-2-9 1:12 |
发案地市 |
佛山、南海 |
发案地段 |
城区文昌路火车站对面 |
接警人员 |
黄亮 |
涉案人员 |
张青 |
车牌号码 |
粤A35621 |
手机号码 |
136797X5300 |
案件关键字 |
摩托车飞车、抢走、逃跑 |
身份证号码 |
5103151XX603277117 |
涉案金额 |
约600元 |
信息抽取 Information Extraction 技术
信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。
由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库!
信息抽取 Information Extraction 挑战
信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。
信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。网上文本信息的大量增加导致这方面的研究得到高度重视。