-
导入刚才产生的模型
model = word2vec.load('/Users/drodriguez/Downloads/text8.bin')
-
model的属性 model.vocab, 得到单词表的numpy.array格式,这里的单词不是词向量形式
-
model.vectors是模型的矩阵,n为单词数目,m为词向量长度,vectors为n*m维
-
可以通过model['dog'].shape或者model['dog'][:10]来访问某一个单词的词向量信息
-
计算几个词向量两两之间的距离:model.distance("dog", "cat", "fish")
-
得到某一个单词的相似词(基于余弦相似度):indexes, metrics = model.similar("dog"),第一个返回值为相似向量的下标,第二个为相似度,都为tuple格式,得到相应的单词可使用model.vocab[indexes]
-
得到相似词的统计信息:(词,相似度)model.generate_response(indexes, metrics),还可以使用model.generate_response(indexes, metrics).tolist()来转换得到python数据类型
-
词向量直接加减运算:indexes, metrics = model.analogy(pos=['king', 'woman'], neg=['man']),返回值和generate_response method相同