数据清洗--cleancc-物联网技术文章-傲云油气装备网

数据清洗--cleancc

日期：2020-05-04 浏览：93 评论：0

核心提示：数据清洗–cleancccleancc快速清洗数据内容可以项目地址(欢迎star):https://python

数据清洗–cleancc

cleancc

快速清洗数据内容可以
项目地址(欢迎star):https://github.com/Amiee-well/clean

使用方法

pip install cleancc
import cleancc
共有五个函数调用：

1.第一个函数为punct：

[

去除标点并让所有字母小写

:param pop_list:所要处理的的列表格式

:param lower:是否转小写，默认是

:return all_comment:处理后的结果-字符串格式

]

2.第二个函数为statistics：

[

词频统计

:param pop_list:所要处理的的列表格式

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:return wordCount_dict:统计结果-字典格式

]

3.第三个函数为stop_words：

[

删除词频统计中的停顿词

:param statis:是否选择词频清理

:param pop_list:所要处理的的列表格式

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:param wordCount_dict:词频统计结果-字典

:return wordCount_dict:清除后结果-字典格式

]

4.第四个函数为Count_Sort：

[

字典排名数目排序

:param wordCount_dict:词频统计结果-字典

:param choices_number:返回前choices_number个字典个数

:return keyword_list:出现的单词-列表格式

:return value_list:单词对应的词频-列表格式

]

5.第五个函数为word_all：

[

调用全部函数

:param pop_list:所要处理的的列表格式

:param choices_number:返回前choices_number个字典个数

:param symbol:是否去除标点，默认是

:param lower:是否转小写，默认是

:return keyword_list:出现的单词-列表格式

:return value_list:单词对应的词频-列表格式

]

注意事项

注意:处理数据参数类型为列表，需要pandas转换为列表后进行调用！
使用示例:

import pandas as pd
from cleancc import clean 
from bs4 import BeautifulSoup

df = pd.read_csv("label.csv",sep='\t', escapechar='\\')
review_list = df['review'].tolist()
comment_list = [BeautifulSoup(k,'lxml').text for k in review_list]
print(comment_list)

keyword_list, value_list = clean.word_all(comment_list,150)
print(keyword_list, value_list)

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• 一个简单的word拼音文字分离工具	• selenium模块太强大了，网易云音乐都可下载
• AI小白的学习记录	• Python中的for i in range（range()函数的for循
• python魔法--描述符/property伪装/协程	• 机器学习之手写数字识别大作业报告

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现