澈-2020年9月24日

2020年09月24日

python3利用skip-gram实现词的相关性查找

n-gram原理（ https://blog.csdn.net/baimafujinji/article/details/51281816）#! -*- coding:utf-8 -*- # 此函数作用是对初始语料进行分词处理后，作为训练模型的语料 import sys # reload(sys) # sys.setdefaultencoding('utf-8') from gensim.m

2020年09月24日

python3利用结巴分词实现智能问答

本文利用结巴分词计算两个句子之间的tfidf的余弦相似度，可以用在客服的机器回答一些常见文件上面import jieba import re from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer import numpy as np from scipy.linalg import

2020年09月24日

cnmarc是中国图书馆的机读格式，这里是超简单讲解（https://blog.csdn.net/chaishen10000/article/details/79245055）这里是asp解析的，不过有点小问题就是没有判断中文的标点符号（https://blog.csdn.net/dyllove98/article/details/8717830）下面封装成了django，不过还是一看就懂了（先提前把ISO文件改为txt来解析的）#main.py#!/usr/bin/env pyth

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

澈 ^{php是最好的语言}

python3利用skip-gram实现词的相关性查找

python3利用结巴分词实现智能问答

python3解析cnmarc格式