HanLP 中文分词 面向生产环境的前沿多语种自然语言处理技术

中文分词 将文本切分为独立语义单位。支持粗分、细分双重标准,高低优先级自定义词典,多语种 词性标注 给每个单词标注语法类别,支持多种词性标注集:CTB、PKU、863、UD、NPCMJ,多语种 命名实体识别 识别文本中的专有名词,支持多种规范:PKU、MSRA、OntoNotes,黑白名单词典、多语种 依存句法分析 分析单词语法上的依赖,支持多种句法体系:SD、UD、PMT,投射/非投射,多语种 成分句法分析 分析句子在语法上的递归构成,并将其表示为树形结构。支持可视化、多语种 语义依存分析 分析句子中单词之间的语义关系图。支持多标准:CSDP、DM、PAS、PSD,支持多语种 语义角色标注 分析句子的谓词论元结构。支持可视化、多语种 抽象意义表示 将句子的意义表示为以概念为节点的单源有向无环图的语言学框架,支持多语种 指代消解 将文本中指代同一事物的提名(mention)聚集到同一个簇 语义文本相似度 判断一对短文本的语义相似度 文本风格转换 将原文本的风格转换为目标风格,同时保持语义不变 关键词短语提取 提取文本中最具有代表性的关键词以及短语 抽取式自动摘要 从文章中筛选出一些作为摘要的中心句子:既要紧扣要点,又要避免赘语 生成式自动摘要 为文章生成一段简短的概括性摘要 文本纠错 改正文本中潜在的拼写、标点、语法等表达错误 文本分类 判断一段文本所属的类别,例如新闻栏目和语种 情感分析 判断一段文本的情感极性,数值的正负代表正负面情绪 GitHub地址 ``` https://github.com/hankcs/pyhanlp ```