接上篇——生成单词索引表
1,首先把句子处理成[[],[],[],,,,]的格式每一个[]存放一个句子,所有的句子放在一个list里。
word_counts = Counter(itertools.chain(*sentences))
itertools迭代器
word_counts.most_common() 函数使用方法;返回的是用于计算字符串中字符出现的接口,word_counts.most_common() 输入整数时C 返回的是排名前C个的数据 不输入是按照出现次数对所有数据排序, 返回值的类型是list[] 第一个参数:字符 第二个参数是:字符出现的次数
[x[0] for x in word_counts.most_common()]的作用就是将word_counts.most_common() 返回值的第一个参数x[0]赋值给 vocabulary_inv
vocabulary_inv = list(sorted(vocabulary_inv)按照字典序对键值进行排序list格式。
# build dictionary mapping from word to index vocabulary = {x: i for i, x in enumerate(vocabulary_inv)}
生成的结果格式: