当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

盘古分词

授权协议 Apache
开发语言 C# .NET
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 不详
投 递 者 马琛
操作系统 Windows
开源组织
适用人群 未知
 软件概览

盘古分词是一个基于 .net framework 的中英文分词组件。主要功能

  • 中文未登录词识别
    • 盘古分词可以对一些不在字典中的未登录词自动识别
  • 词频优先
    • 盘古分词可以根据词频来解决分词的歧义问题
  • 多元分词
    • 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题
  • 中文人名识别
    • 输入: “张三说的确实在理”
    • 分词结果:张三/说/的/确实/在理/
    • 输入 “李三买了一张三角桌子”
    • 分词结果:李三/买/了/一张/三角/桌子/
  • 强制一元分词
    • 输入 “张三说的确实在理”
    • 分词结果: 张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在 (6,1)/在理(6,5)/理(7,1)/
  • 繁体中文分词
    • 输入"我的選擇"
    • 分词结果: 我/的/選擇/
  • 同时输出简体和繁体
    • 输入"我的選擇"
    • 分词结果:我(0,5)/的(1,5)/选择(2,1)/選擇(2,5)/
  • 中文词性输出
    • 盘古分词可以将以登录词的中文词性输出给用户,以方便用户做进一步处理。
  • 全角字符支持
    • 盘古分词可以识别全角的字母和数字

英文分词

  • 英文分词
    • 英文单词通常都是靠空格等符号分割,这个比较简单,盘古分词分英文自然也没有什么问题。
  • 英文专用词识别

一些英文简写是字母符号混合,或者是字母数字混合,这个分词起来就不能按照空格符号这样分割了,对于字母符号混合的如 U.S.A ,
只要将这个 词录入到字典中,盘古分词就可以分出整词。对于字母和数字混合的,盘古分词会自动作为整词输出。

  • 英文原词输出
  • 英文大小写同时输出

其他功能

  • 停用词过滤

对于一些标点符号,连词,助词等有时候需要在分词时过滤掉,盘古分词提供一个 StopWord.txt 文件,用户只要将需要过滤的词加入到这个文件中,
并将停用词过滤开发打开,就可以过滤掉这些词。

  • 设置分词权值

盘古分词可以让用户对如下特性设置自定义权值

  1. 未登录词权值
  2. 最匹配词权值
  3. 次匹配词权值
  4. 再次匹配词权值
  5. 强行输出的单字的权值
  6. 数字的权值
  7. 英文词汇权值
  8. 符号的权值
  9. 强制同时输出简繁汉字时,非原来文本的汉字输出权值。

*用户自定义规则

  • 字典管理
    • 盘古分词提供一个字典管理工具 DictManage 通过这个工具,你可以增加,修改,和删除字典中的单词
  • 动态加载字典
    • 通过字典工具增加,修改,和删除字典中的单词后,保持字典,盘古分词会自动将新的字典文件加载进去,而不需要重新启动。
  • 关键词高亮组件

Lucene 提供了一个关键词高亮组件,但这个组件对中文的支持不是特别好,特别是如果还有多元分词的情况,处理的就更不好。
盘古分词提供了一 个针对中文和英文的关键词高亮组件 PanGu.HighLight ,其对中文的支持要好于Lucene 那个高亮组件。

  • 同义词输出(后续版本提供)
  • Lucene.net 接口及示例

在PanGu4Lucene 这个包里面有我做的一个盘古+Lucene 的简单新闻搜索Web示例程序,Release 包里面有使用说明。

性能指标

Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒,2线程分词速度为 690K 字符每秒。

  • 盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/的/确实/在理/ 输入 “李三买了一张三角桌子” 分词结果:李三/买/了/一

  • 最近做了一个小商城,用到了Lucene+盘古,但是发现,盘古的默认分词词库不够全,有很多词都没有分到位,为了这个,研究了一上午,做记录如下 第一步:设置词库 自己可以把自己想要词写成一个txt保存起来,我因为做的是淘宝商品类的检索,所以我直接在搜狗词库里面检索到了阿里巴巴的所有词库,直接通过工具转换成了txt格式的 第二步:通过盘古DictManage.exe设置要添加的词 第三步:添加PanGu

  • 中文分词按照分词粒度来分,分成 一元分词,二元分词,多元分词和精确分词等类型。一元分词就是最简单的分词,将所有的中文字符按照单字形式输出。二元分词按双字形式输出。多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。当然这里用精确这个词来修饰只是为了与其他几种分词方法区分,不可能有完全精确的分词方法,因为我们伟大

  • 前言 各位朋友,谢谢大家的支持,由于文件过大,有考虑到版权的问题,故没有提供下载,本人已建立一个搜索技术交流群:77570783,源代码已上传至群共享,需要的朋友,请自行下载! 首先自问自答几个问题,以让各位看官了解写此文的目的 什么是站内搜索?与一般搜索的区别? 很多网站都有搜索功能,很多都是用SQL语句的Like实现的,但是Like无法做到模糊匹配(例如我搜索“.net学习”,如果有“.net

 相关资料
  • 「盘古开发框架」是一套轻量稳健的工业级前、中、后台三维多端行业数字化赋能开发框架。基于商业友好的 Apache-2.0 协议免费开源发布。我们希望不仅是开源的受益者也能成为开源贡献者,与开源社区一起共建共享开源生态。 生态子项目 盘古开发框架由「盘古服务开发框架」、「盘古中后台业务系统开发脚手架」、「盘古移动端多平台开发脚手架」三个子项目组成。可以单独拆箱使用,也可以打包整合。 盘古服务开发框架(

  • 古典的色彩组合带有势力与权威的意味,强烈的宝蓝色(royal blue)是任何一个古典色彩组合的中间装饰色。它是如此地醒目,就算和其它的色彩搭配在一起,也毫不会逊色。古典的色彩组合表示真理、责任与信赖。又因为它接近绿色,宝蓝色会唤起人持久、稳定与力量的感觉,特别是和它的分裂补色——红橙和黄橙色搭配在一起。 补色色彩组合 原色色彩组合 单色色彩组合 21 69 20 68 4 36 68 67 70

  • #面经# 自我介绍 下面的问题不分先后顺序 了解操作系统嘛?讲讲你了解的操作系统 OSI七层模型 http 端口 子网掩码 cookie session 为什么查询零散文件比大文件慢 常用的数据结构 B+树 红黑树 定义泛型类 场景:多级文件的拷贝 项目里的功能实现 反问 面试官问的问题比较直击要害,回答的好不好也会给指出来,虽然答得比较乱且烂,但面试体验还不错,又一次意识到自己的菜,继续加油吧

  • 给定文档结构: 如何按其分组并仅在计数处获取 使用下面的查询没有返回任何结果。谁能指出这里缺少了什么吗? 谢谢

  • 2.2 磁盘分区 这一章在规划的重点是为了要安装Linux,那Linux系统是安装在计算机元件的那个部分呢?就是磁盘啦!所以我们当然要来认识一下磁盘先。 我们知道一块磁盘是可以被分区成多个分区的(partition),以旧有的Windows观点来看,你可能会有一颗磁盘并且将他分区成为C:, D:, E:盘对吧!那个C, D, E就是分区(partition)啰。但是Linux的设备都是以文件的型态

  • 自我介绍 实习经历 实习遇到的困难和解决办法 string类的常用方法 抽象类和普通类 jemeter接口测试和压测具体操作步骤 三次握手、四次挥手 get post区别,其他请求方式 数据库左右连接区别 条件查询,添加索引,修改数据SQL语句 SpringIOC SpringMVC组件 spring springmvc springboot区别 Linux查找、编辑、创建、删除文件,修改权限 s