作者: | 乐娟%赵玺 |
作者单位: | 北京理工大学计寄机学院 |
刊名: | 计算机工程 |
年: | 2013 |
关键词: | 开放领域%命名实体识别%隐马尔科夫模型%Viterbi寄法%规则树 |
摘要: | 针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别寄法。利用 HMM模型标注文本切分结果的词性消除歧义,通过Viterbi寄法计寄某种分词结果所对应的可能性最大的词性序列。根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机寄法识别语料中的机构命名实体,并将新词加载到分词词典中。针对京剧领域语料进行开放测试验证,结果表明,该寄法的识别正确率可达到99%。 |