2vec

Introduction

结巴分词

安装
```
pip install jieba
```
分词
- jieba.cut(str,cut_all=False,HMM=False) # 返回generator
- jieba.cut_for_search(str,HMM=False) # 返回generator
- jieba.lcut(str,cut_all=False,HMM=False) # 返回list
- jieba.lcut_for_search(str,HMM=False) # 返回list
- jieba.Tokenizer(dictionary=DEFAULT_DICT) # 新建自定义分词器

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

载入词典
```
jieba.load_userdict(file_name) # file_name为文件类对象或自定义词典的路径
```
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
```
创新办 3 i
云计算 5
凱特琳 nz
台中
```
调整词典
- 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
- 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
如果/放到/post/中将/出错/。
>>> jieba.suggest_freq(('中', '将'), True)
494
>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
如果/放到/post/中/将/出错/。
>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
「/台/中/」/正确/应该/不会/被/切开
>>> jieba.suggest_freq('台中', True)
69
>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
「/台中/」/正确/应该/不会/被/切开

word2vec

sudo pip install gensim

Continuous Bag of Words(CBOW)和Skip-gram。

CBOW:根据上下文来预测当前词语的概率
Skip-gram：根据当前词语来预测上下文的概率
doc2vec

2vec

2vec

Introduction

结巴分词

word2vec

doc2vec

results matching ""

No results matching ""