mythead.py #这里是封装的线程 可以返回结果 默认的是不返回结果#重新封装多线程为了获取返回结果
from threading import Thread
class ThreadWithReturnValue(Thread):
def __init__(self, group=None, target=None, name=None, 
作者:xTao 分类:LNMP 浏览:2457 评论:0
因为ipv6服务器可以有很多个ip这样子 每次爬取就换一个ip,至于怎样获取本机的ipv6的地址自己百度 这里说一下用requests爬取绑定ipv6,其他函数爬取的自行百度,使用ipv6的前提是对方网站允许我们ipv6访问谷歌搜索可以 谷歌学术不可以的原因(https://www.tomorrow.wiki/archives/672#respond),其他网站同理import requests,sys,socket
from requests_toolbelt.adapt
作者:xTao 分类:LNMP 浏览:3035 评论:0
解决方案来自https://blog.csdn.net/u011415481/article/details/80794567
在服务器上正常爬取接口然后.json()结果:
UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\U0001f621’ in posit....
类似这种类型的错误
在本地正常
>>>
作者:xTao 分类:LNMP 浏览:2416 评论:0
n-gram原理( https://blog.csdn.net/baimafujinji/article/details/51281816)#! -*- coding:utf-8 -*-
# 此函数作用是对初始语料进行分词处理后,作为训练模型的语料
import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')
from gensim.m
作者:xTao 分类:LNMP 浏览:2277 评论:0
本文利用结巴分词计算两个句子之间的tfidf的余弦相似度,可以用在客服的机器回答一些常见文件上面import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import numpy as np
from scipy.linalg import
作者:xTao 分类:LNMP 浏览:2311 评论:0
cnmarc是中国图书馆的机读格式,这里是超简单讲解(https://blog.csdn.net/chaishen10000/article/details/79245055) 这里是asp解析的,不过有点小问题就是没有判断中文的标点符号(https://blog.csdn.net/dyllove98/article/details/8717830)下面封装成了django,不过还是一看就懂了(先提前把ISO文件改为txt来解析的)#main.py#!/usr/bin/env pyth
作者:xTao 分类:LNMP 浏览:2523 评论:0
‹‹
‹
8
9
10
11
12
13
14
15
16
17
›
››
站点信息
文章总数:145
页面总数:0
分类总数:1
标签总数:4
评论总数:0
浏览总数:337922
« 2024年4月 »
一 二 三 四 五 六 日
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
搜索
网站分类
标签列表
作者列表
Copyright Your WebSite.Some Rights Reserved.U2FsdGVkX1+HgSDc03E8/3XlmHI11tOvpjJaDH8UaGU=