澈-LNMP 第8页

2020年10月12日

python3的threading多线程封装并返回数据

mythead.py #这里是封装的线程可以返回结果默认的是不返回结果#重新封装多线程为了获取返回结果 from threading import Thread class ThreadWithReturnValue(Thread): def __init__(self, group=None, target=None, name=None,

2020年10月11日

因为ipv6服务器可以有很多个ip这样子每次爬取就换一个ip，至于怎样获取本机的ipv6的地址自己百度这里说一下用requests爬取绑定ipv6，其他函数爬取的自行百度,使用ipv6的前提是对方网站允许我们ipv6访问谷歌搜索可以谷歌学术不可以的原因（https://www.tomorrow.wiki/archives/672#respond），其他网站同理import requests,sys,socket from requests_toolbelt.adapt

2020年10月04日

python3爬虫在服务器出现json()解析编码格式问题

解决方案来自https://blog.csdn.net/u011415481/article/details/80794567 在服务器上正常爬取接口然后.json()结果： UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\U0001f621’ in posit.... 类似这种类型的错误在本地正常 >>>

2020年09月24日

python3利用skip-gram实现词的相关性查找

n-gram原理（ https://blog.csdn.net/baimafujinji/article/details/51281816）#! -*- coding:utf-8 -*- # 此函数作用是对初始语料进行分词处理后，作为训练模型的语料 import sys # reload(sys) # sys.setdefaultencoding('utf-8') from gensim.m

2020年09月24日

python3利用结巴分词实现智能问答

本文利用结巴分词计算两个句子之间的tfidf的余弦相似度，可以用在客服的机器回答一些常见文件上面import jieba import re from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer import numpy as np from scipy.linalg import

2020年09月24日

python3解析cnmarc格式

cnmarc是中国图书馆的机读格式，这里是超简单讲解（https://blog.csdn.net/chaishen10000/article/details/79245055）这里是asp解析的，不过有点小问题就是没有判断中文的标点符号（https://blog.csdn.net/dyllove98/article/details/8717830）下面封装成了django，不过还是一看就懂了（先提前把ISO文件改为txt来解析的）#main.py#!/usr/bin/env pyth

澈 ^{php是最好的语言}

python3的threading多线程封装并返回数据

python3利用requests绑定ipv6爬取数据

python3爬虫在服务器出现json()解析编码格式问题

python3利用skip-gram实现词的相关性查找

python3利用结巴分词实现智能问答

python3解析cnmarc格式

« 2024年4月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30