为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

【Python】用Python的“结巴”模块进行分词

2018-02-04 2页 doc 12KB 37阅读

用户头像

is_337177

暂无简介

举报
【Python】用Python的“结巴”模块进行分词【Python】用Python的“结巴”模块进行分词 之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。 下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块 def splitSentence(inputFile, outputFile): fin...
【Python】用Python的“结巴”模块进行分词
【Python】用Python的“结巴”模块进行分词 之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。 下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块 def splitSentence(inputFile, outputFile): fin=open(inputFile, 'r') #以读的方式打开文件 fout=open(outputFile, 'w') #以写得方式打开文件 for eachLine in fin: line=eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格,并转为Unicode进行处理 wordList=list(jieba.cut(line)) #用结巴分词,对每行内容进行分词 outStr='' for word in wordList: outStr +=word outStr +='/ ' fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件 fin.close() fout.close() splitSentence('myInput.txt', 'myOutput.txt') 写完程序之后,在Linux重点输入:python test.py即可运行程序进行分词。 输入的文件内容如下所示: 经过结巴分词后,输出结果如下所示: 注意:第11行的 jieba.cut()返回的结构是一个可迭代的generator,可以用list(jieba.cut(...))转化为list 口吃结巴矫正口吃网
/
本文档为【【Python】用Python的“结巴”模块进行分词】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索