读书频道 > 网站 > 网页设计 > Python数据分析与挖掘实战
2.3.8 Gensim
15-12-11    下载编辑
收藏    我要投稿   

本文所属图书 > Python数据分析与挖掘实战

本书共15章,分两篇:基础篇和实战篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的立即去当当网订购

在Gensim的官网中,它对自己的简介只有一句话:topic modelling for humans!

Gensim是用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等,这些领域的任务往往需要比较多的背景知识,通常的情况是:研究这方面的读者,已经不需要我再多说什么;不研究这方面的读者,在这里也说不清楚。(所以Gensim的介绍只有一句话也就不奇怪了。)

因此,在这一节中,只是提醒读者有这么一个库的存在,而且这个库很强大,如果用得到这个库,请读者去阅读官方帮助文档或参考链接。

需要一提的是,Gensim把Google公司在2013年开源的著名的词向量构造工具Word2Vec编译好了作为它的子库,因此需要用到Word2Vec的读者也可以直接用Gensim而无需自行编译了。据说Gensim的作者对Word2Vec的代码进行了优化,据说它在Gensim下的表现比原生的Word2Vec还要快。(为了实现加速,需要准备C++编译器环境,因此,建议用到Gensim的Word2Vec的读者在Linux下环境运行。)
下面是一个Gensim使用Word2Vec的简单例子。

# -*- coding: utf-8 -*-
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
#logging是用来输出训练日志

#分好词的句子,每个句子以词列表的形式输入
sentences = [['first', 'sentence'], ['second', 'sentence']]

#用以上句子训练词向量模型
model = gensim.models.Word2Vec(sentences, min_count=1)

print(model['sentence']) #输出单词sentence的词向量。

参考链接:

http://radimrehurek.com/gensim/。

http://www.52nlp.cn/(如何计算两个文档的相似度二)。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站