代码如下:import requests
from bs4 import BeautifulSoup
import jieba
import sys
import jieba.analyse
from PIL import Image
import numpy as np
import matplotlib.pyplot as&nbs
这里介绍两种方法,第一种用自带的snownlp库,snownlp针对中文的,英文的可以用textblob可以参考(https://www.jianshu.com/p/d50a14541d01)第一种:#meidi_jd_neg.txt数据格式如下(一行一条评论)
#好像遥控是坏的,还是送的电池没有电,算了,热水器上将就着按吧
#要打十个字才能发,我就打十个字
#调温的开关太紧了,不知道是不是都这样,送货和安装的师傅来的很准时,不像以前要等老半天
#上面安装既然花了我差不多*块,但是这热水
数据来源网上(http://blog.csdn.net/u010414589/article/details/49622625)函数来自数据分析与挖掘和一些自己封装的函数,代码如下:时间序列分析 步骤:1、检验平稳,2、是否白噪声,3、得到要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF,得到较佳的阶层 p 和阶数 q,4、建模分析import pandas as pd
import matplotlib.pyplo
整理自(数据分析与挖掘和其他地方)有时候处理数据的时候会出现过大或者单位不一样,我们可以利用以下方法实现数据规范化:#数据规范化
import pandas as pd
import numpy as np
import sys
dd = 'll/normalization_data.xls'
data = pd.read_excel(dd,header=Non
聚类就是把一批数据做一个分类#这里有对应函数参数的详细讲解(
# 原理讲解 https://blog.csdn.net/mrwu9902/article/details/53672514
import pandas as pd
import numpy as npy
from sklearn.cluster import KMeans,MiniBatchKMeans
# https://www.cnblogs.com/ahu-lichang/p/7169026.html和http://blog.csdn.net/lanxu_yy/article/details/18747855 关于信息熵可以参考import numpy as np # 快速操作结构数组的工具import pandas as pd # 数据分析处理工具from sklearn.tree import export_graphvizfrom sklearn.preprocessi