数据清洗--cleancc

   日期:2020-05-04     浏览:93    评论:0    
核心提示:数据清洗–cleancccleancc快速清洗数据内容可以项目地址(欢迎star):https://python

数据清洗–cleancc

cleancc

  • 快速清洗数据内容可以
  • 项目地址(欢迎star):https://github.com/Amiee-well/clean

使用方法

  • pip install cleancc

  • import cleancc

  • 共有五个函数调用:

    1.第一个函数为punct:

    [

    ​ 去除标点并让所有字母小写

    ​ :param pop_list:所要处理的的列表格式

    ​ :param lower:是否转小写,默认是

    ​ :return all_comment:处理后的结果-字符串格式

    ]

    2.第二个函数为statistics:

    [

    ​ 词频统计

    ​ :param pop_list:所要处理的的列表格式

    ​ :param symbol:是否去除标点,默认是

    ​ :param lower:是否转小写,默认是

    ​ :return wordCount_dict:统计结果-字典格式

    ]

    3.第三个函数为stop_words:

    [

    ​ 删除词频统计中的停顿词

    ​ :param statis:是否选择词频清理

    ​ :param pop_list:所要处理的的列表格式

    ​ :param symbol:是否去除标点,默认是

    ​ :param lower:是否转小写,默认是

    ​ :param wordCount_dict:词频统计结果-字典

    ​ :return wordCount_dict:清除后结果-字典格式

    ]

    4.第四个函数为Count_Sort:

    [

    ​ 字典排名数目排序

    ​ :param wordCount_dict:词频统计结果-字典

    ​ :param choices_number:返回前choices_number个字典个数

    ​ :return keyword_list:出现的单词-列表格式

    ​ :return value_list:单词对应的词频-列表格式

    ]

    5.第五个函数为word_all:

    [

    ​ 调用全部函数

    ​ :param pop_list:所要处理的的列表格式

    ​ :param choices_number:返回前choices_number个字典个数

    ​ :param symbol:是否去除标点,默认是

    ​ :param lower:是否转小写,默认是

    ​ :return keyword_list:出现的单词-列表格式

    ​ :return value_list:单词对应的词频-列表格式

    ]

注意事项

  • 注意:处理数据参数类型为列表,需要pandas转换为列表后进行调用!

  • 使用示例:

import pandas as pd
from cleancc import clean 
from bs4 import BeautifulSoup

df = pd.read_csv("label.csv",sep='\t', escapechar='\\')
review_list = df['review'].tolist()
comment_list = [BeautifulSoup(k,'lxml').text for k in review_list]
print(comment_list)

keyword_list, value_list = clean.word_all(comment_list,150)
print(keyword_list, value_list)
 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服