knn算法就是算空间两点的距离,来分类代码如下import numpy as npy
import sys
def knn(k,testdata,traindata,labels):
dif = testdata - traindata
sqdif = dif**2
朴素贝叶斯就是求概率原理可以参考(http://blog.csdn.net/amds123/article/details/70173402)以下是实例代码:class bys():
def classify(self,data, attrIndex):
classes = {}
&nb
Apriori不能像其他模块一样直接pip安装,下面是网上找来的算法,然后封装成可直接使用的代码class Apriori():
def __init__(self,data,min_support,min_confidence):
self.samples = data
&nbs
利用了jieba分词和tf-idf算法实现文本相似度分析,import jieba
from gensim import corpora,models,similarities
import sys
def do():
#两个源文件
f1 = "one.txt"
# matplotlib画廊
import matplotlib.pyplot as plt
import numpy as np
import sys
#生成数据
x = np.linspace(-3,3,50)
y1 = 2*x+1
y2 = x**2
plt.figure()
plt.plot(x,y1,l
下面代码利用了redis作为中间库来存储要处理的数据,处理数据然后再把需要处理的上传到redis如此循环,并且能实现断点续传,随时停止,随时开始。代码封装可以继续优化。代码分为三部分。common公共函数,mater为了让redis有起始数据(可以继续优化),slave可以复制多个一起运行来实现爬取数据和存redis#common:
import redis
import requests
import pymysql
import sys