php是最好的语言

python3的threading多线程封装并返回数据

mythead.py #这里是封装的线程 可以返回结果 默认的是不返回结果#重新封装多线程为了获取返回结果 from threading import Thread class ThreadWithReturnValue(Thread):     def __init__(self, group=None, target=None, name=None, 
作者:xTao 分类:LNMP 浏览:2457 评论:0

python3利用requests绑定ipv6爬取数据

因为ipv6服务器可以有很多个ip这样子 每次爬取就换一个ip,至于怎样获取本机的ipv6的地址自己百度 这里说一下用requests爬取绑定ipv6,其他函数爬取的自行百度,使用ipv6的前提是对方网站允许我们ipv6访问谷歌搜索可以 谷歌学术不可以的原因(https://www.tomorrow.wiki/archives/672#respond),其他网站同理import requests,sys,socket from requests_toolbelt.adapt
作者:xTao 分类:LNMP 浏览:3035 评论:0

python3爬虫在服务器出现json()解析编码格式问题

解决方案来自https://blog.csdn.net/u011415481/article/details/80794567 在服务器上正常爬取接口然后.json()结果: UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\U0001f621’ in posit.... 类似这种类型的错误 在本地正常 >>>
作者:xTao 分类:LNMP 浏览:2416 评论:0

python3利用skip-gram实现词的相关性查找

n-gram原理( https://blog.csdn.net/baimafujinji/article/details/51281816)#! -*- coding:utf-8 -*- # 此函数作用是对初始语料进行分词处理后,作为训练模型的语料 import sys # reload(sys) # sys.setdefaultencoding('utf-8') from gensim.m
作者:xTao 分类:LNMP 浏览:2277 评论:0

python3利用结巴分词实现智能问答

本文利用结巴分词计算两个句子之间的tfidf的余弦相似度,可以用在客服的机器回答一些常见文件上面import jieba import re from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer import numpy as np from scipy.linalg import
作者:xTao 分类:LNMP 浏览:2311 评论:0

python3解析cnmarc格式

cnmarc是中国图书馆的机读格式,这里是超简单讲解(https://blog.csdn.net/chaishen10000/article/details/79245055) 这里是asp解析的,不过有点小问题就是没有判断中文的标点符号(https://blog.csdn.net/dyllove98/article/details/8717830)下面封装成了django,不过还是一看就懂了(先提前把ISO文件改为txt来解析的)#main.py#!/usr/bin/env pyth
作者:xTao 分类:LNMP 浏览:2523 评论:0