儿歌大全100首,火影忍者漫画,全集-健康在线网,管理您的身体

频道:最近大事件 日期: 浏览:124

现在项目上有个需求:对根本原因进行猜测

也便是说,给定根本原因以及其所对应的标签,经过机器学习算法对今后输入的根本原因进行自动化归类(或者说智能提示当时输入的根本原因归于哪个类别的)

图1.数据库中的格局

我想已然需求用到机器学习,必定需求将数据清洗。所以第一步我先把根本原因字段进行分词处理,然后再将分好的词对应的类别转换成机器学习所需的格局,进行练习、猜测处理。

So 今日先把“根本原因”字段进行分词处理。

提到中文分词必定用 jieba 了,关于jieba的运用教程以及各种参数的运用这儿就不在冗余的叙说了,百度一下你就知道。我在这边就把我分词的进程代码以及环境的建立共享一下。

环境:Python 3.6 +

我的python版别

然后进入cmd进入指令形式,装置jieba

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

装置jieba

用了清华的镜像 这样比较快!

接着便是预备文本文件,关于这个数据的获取方法有两种,1.直接读取数据库取得,2.经过数据库导出文本。本次仅仅简略的测验数据量没有那么大,所以我就直接将数据库中的数据导出了,导出后的文本如下。

输入的文本

接下来预备一个停用词的文本,停用词便是遇到这个词就越过,如“了”、“的”、“吧嗒”等一些没有意义的词汇和符号。我运用的停用词为哈工大停用词库,找不到的话能够找我。

部分停用词

接下来上python代码

一切代码

保证你输入文本的途径以及停用词的途径放的正确,我这儿是将它们放到了同级目录下。

点击运转会得到一个分词后的文本output2.txt,翻开它与输入的文本做一个比照

可看出分词作用还不错,可是人名什么的仍是在。所以说依据事务需求来确认停用词表仍是有必要的。

分词完成后,我该怎么做。。。。。。。。。。。

有没有大佬给点拨一二。。。。。。。。。。。。

or

用我本来的思路持续走下去。。。。。。。。。。

热门
最新
推荐
标签