为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

结巴分词 0

2018-02-04 2页 doc 11KB 28阅读

用户头像

is_003124

暂无简介

举报
结巴分词 0结巴分词 0 3月21日 深圳 OSC 源创会开始报名罗,送华为海思开发板 结巴分词: 做最好的Python中文分词组件 jieba 0.19主要包含以下两个更新: 1) 提升了模块加载的速度。 "import jieba"除了第一次以外,加载时间缩短了75%,在主流PC Server上可以实现一秒以内加载完毕。 工作机制:第一次“import jieba”时加载文本词典到内存生成模型,然后dump到磁盘上的cache文件。以后再"import jieba"时,会判断文本文件与cache文件的时间戳决定从哪里加载,由...
结巴分词 0
结巴分词 0 3月21日 深圳 OSC 源创会开始报名罗,送华为海思开发板 结巴分词: 做最好的Python中文分词组件 jieba 0.19主要包含以下两个更新: 1) 提升了模块加载的速度。 "import jieba"除了第一次以外,加载时间缩短了75%,在主流PC Server上可以实现一秒以内加载完毕。 工作机制:第一次“import jieba”时加载文本词典到内存生成模型,然后dump到磁盘上的cache文件。以后再"import jieba"时,会判断文本文件与cache文件的时间戳决定从哪里加载,由于cache文件加载更快,所以提升了速度。 2) 增加了用户自定义词典的接口。 开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径 词典格式和dict.txt一样,一个词占一行;每一行分为两部分,一部分为词语,另一部分为词频,用空格隔开 范例: 云计算 5 李小福 2 创新办 3 之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 / 加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / 口吃治疗
/
本文档为【结巴分词 0】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索