n-gram原理( https://blog.csdn.net/baimafujinji/article/details/51281816)#! -*- coding:utf-8 -*-
# 此函数作用是对初始语料进行分词处理后,作为训练模型的语料
import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')
from gensim.m
作者:xTao 分类:LNMP 浏览:2324 评论:0
本文利用结巴分词计算两个句子之间的tfidf的余弦相似度,可以用在客服的机器回答一些常见文件上面import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import numpy as np
from scipy.linalg import
作者:xTao 分类:LNMP 浏览:2353 评论:0
cnmarc是中国图书馆的机读格式,这里是超简单讲解(https://blog.csdn.net/chaishen10000/article/details/79245055) 这里是asp解析的,不过有点小问题就是没有判断中文的标点符号(https://blog.csdn.net/dyllove98/article/details/8717830)下面封装成了django,不过还是一看就懂了(先提前把ISO文件改为txt来解析的)#main.py#!/usr/bin/env pyth
作者:xTao 分类:LNMP 浏览:2598 评论:0
‹‹
1
››
站点信息
文章总数:145
页面总数:0
分类总数:1
标签总数:4
评论总数:0
浏览总数:344117
« 2020年9月 »
一 二 三 四 五 六 日
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
搜索
网站分类
标签列表
作者列表
Copyright Your WebSite.Some Rights Reserved.U2FsdGVkX1+HgSDc03E8/3XlmHI11tOvpjJaDH8UaGU=