python数据分析方法总结
以下内容根据网上和数据分析与挖掘书籍 总结出来 代码大多在本站可以找到 不定时更新和更正 感谢大佬
缺失值处理方法:替换(平均值、中位数、众数、固定值、临近值、回归法算出、插值法(拉格朗日插值法)) 更多参考(https://blog.csdn.net/s2638358892/article/details/77529008?locationNum=2&fps=1)
异常值处理方法:丢弃、不理它、当成缺失值 (更多参考:https://www.cnblogs.com/xiaohuahua108/p/6237906.html)
数据规范化:最大最小规范、零均值规范、小数定标规范、(有时为了画折线图比较也可以让每一列除以对应列的第一个数字然后乘以一个整数,这样所有折线的起点都是从零开始)(参考:https://www.cnblogs.com/rrttp/p/8053471.html)
数据离散化:等宽法、等频法、聚类分析法
特征选取:PCA降维(将改变原始数据)、回归法里面的通过特征向量的大小来选取特征、随机逻辑回归选取特征(不改变原始数据)
预测分类:id3决策树,c.45决策树,cart分类决策树(数据离散化)、神经网络(数据随便离散不离散)、svm(数据可以不用离散化)、朴素贝叶斯算法(数据离散化)、KNN算法(数据随便)、逻辑回归(数据随便)
聚类:K-means(数据可以不用离散化)、层次聚类算法(数据可以不用离散化)
关联:apriori(数据离散)
预测未来数据走向:cart回归决策树,时间序列arima(数据随便)(单列)、灰色预测(数据随便)(单列)、神经网络(数据随便)(可以根据多个x预测y的走向)、线性回归(数据随便)、岭回归(数据随便)、Lasso回归(数据随便)后面三种回归算法参考网址(https://blog.csdn.net/hzw19920329/article/details/77200475)
情感分析:利用python自带的snownlp 库、英文的可以用textblob库或者利用结巴分词
文本相似度分析:利用结巴分词tf-idf算法
提取关键词:rake
词或者短文本相似度:word2vec(https://cloud.tencent.com/developer/article/1145941)
查看分类正确率:metrics(类似混淆矩阵)
*多颗决策树构成了随机森林