手动下载数据,解决nltk.download('stopwords')问题

手动下载数据,解决nltk.download('stopwords')问题

最近在使用nltk包里面的停用词数据,但是在执行nltk.download('stopwords')后发现半天没有反应,最后报这样的错误。

手动下载数据,解决nltk.download('stopwords')问题
当时我查阅资料得知,可以自己下载这个数据,然后上传到某个目录就可以了,
我从Github上下载下了stopwords.zip,并解压放到了目录下。
Github地址为 https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora
至于放到哪个目录,这个就是需要讲究的了,你在执行nltk.downloads(‘stopwords’)最后会给你这样的提示:
手动下载数据,解决nltk.download('stopwords')问题
刚开始按照提示,在上面提到的第一个目录下创建了一个nltk_data文件夹(刚开始家目录是没有的),然后把下载的数据复制到这个目录,并进行了解压,因为我查阅资料别人就是这样做的,但是发现不行。但是我看别人的博客下面评论说是可以的,不过它是把所有的nltk的数据都下载下来了,我当时就很不解,也打算下载所有的数据集,就在我下载数据集的时候,我想到了了Github上数据的存放结构
手动下载数据,解决nltk.download('stopwords')问题
当时我就想是不是需要创建一个packages/corpora,然后把数据放里面,尝试了下也不对,这就很难受了啊,不过我又试了下把packages删掉,nltk_data目录下面直接是corpora文件夹,然后把解压后的数据放进去,再次尝试,成功了!
记得数据一定要解压,一定要解压。
如果你还有问题或者其他的方法,欢迎在评论区交流。