返回主页 Sun
您当前的位置是 :首页> 成果推介
|

中文农业科技文献自动标引系统

中文农业科技文献自动标引系统

作者:   文章来源:   发表时间:2013-11-25    点击量:

  为实现自动标引而构造了主题、分类、范畴代码和网罗词四位一体的多功能计算机自动标引用的主题词表以及范畴代码与网罗词的对照关系表,并采取了有效的汉语分词技术。
  1.引入句法概念,归纳出7个元标题模式应用元标题句型把待标引的题目分割成短语。
  2.引入切分标识词和停用词的概念,形成停用词表,其目的是对标引短语进一步的切分处理。
  3.特征词的处理,特片词一类是专指词,对农业品种名称、科技术语、方法技术名称,进行了专门处理,作为特征词给以标引。
  4.地理名称的标引处理,地理名称的标引通过规则识别来实现。
  5.用后缀判别规则标引自由词,生物名称、物质名称等用自由词后缀判别字或词,标引出自由词。
  6.自动分词的算法,分词的算法是利用正向增字最长匹配进行主题匹配处理,并完成后方一致扩充、前方一致扩充和回溯匹配处理。
  7.分类标引、范畴代码和网罗词标引,根据“农业优先,泛指服从专指,第一主题优先的法则”标引出分类号、范畴代码,再由范畴代码和网罗词的对照表,标引出网罗词。
  该系统采用淡入淡出显示技术、下拉式菜单、弹出式窗口,以滚动条形式选择系统各功能模块。主要功能有输入输出;信息显示浏览;词表维护;自由词排序及词频统计;主题词、“中图法”分类号、范畴代码、网罗词以及自由词和特征词的一体化自动标引等功能。
  该系统分词准确率达到95%以上,标引速度达到4000篇/小时(题名)和3000篇/小时(题名加文摘),标引深度达到4.4(题名)和6.7(题名加文摘)个主题词和自由词。