wiki中文语料下载及繁体转简体的处理。
wiki中文语料下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
下载后是xml的文件,需要转换为中文的txt文件,网上又很多处理的python代码。
#!/usr/bin/env python # -*- coding: utf-8 -*- #将xml的wiki数据转换为text格式 import logging import os.path import sys from gensim.corpora import WikiCorpus if __name__ == '__main__': program = os.path.basename(sys.argv[0])#得到文件名 logger = logging.getLogger(program) logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s') logging.root.setLevel(level=logging.INFO) logger.info("running %s" % ' '.join(sys.argv)) if len(sys.argv) < 3: #print globals()['__doc__'] % locals() sys.exit(1) inp, outp = sys.argv[1:3] space = " " i = 0 output = open(outp, 'w') wiki =WikiCorpus(inp, lemmatize=False, dictionary=[])#gensim里的维基百科处理类WikiCorpus for text in wiki.get_texts():#通过get_texts将维基里的每篇文章转换位1行text文本,并且去掉了标点符号等内容 output.write(space.join(text) + "\n") i = i+1 if (i % 10000 == 0): logger.info("Saved "+str(i)+" articles.") output.close() logger.info("Finished Saved "+str(i)+" articles.") 最好,再Linux系统下操作,我使用的是macOS系统,大约处理31分钟处理完得到 wiki.zh.txt。使用windows操作时直接导致死机。Linux下执行:下载下来的压缩包不用解压,直接执行下面的命令行就可以。
D:\PyRoot\iDemo\wiki_zh>python 1_process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.txt
OpenCC下载地址:https://bintray.com/byvoid/opencc/OpenCC/1.0.1
进入解压后的opencc的目录(opencc-1.0.1-win32),双击opencc.exe文件。在当前目录打开dos窗口(Shift+鼠标右键->在此处打开命令窗口),输入如下命令行:opencc -i wiki.zh.txt -o wiki.zh.simp.txt -c t2s.json,,注意wiki.zh.txt要放到和opencc.exe一个目录下边。