手动下载数据，解决nltk.download('stopwords')问题

最近在使用nltk包里面的停用词数据，但是在执行nltk.download('stopwords')后发现半天没有反应，最后报这样的错误。

手动下载数据，解决nltk.download('stopwords')问题
当时我查阅资料得知，可以自己下载这个数据，然后上传到某个目录就可以了，
我从Github上下载下了stopwords.zip,并解压放到了目录下。
Github地址为 https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora
至于放到哪个目录，这个就是需要讲究的了,你在执行nltk.downloads(‘stopwords’)最后会给你这样的提示：
手动下载数据，解决nltk.download('stopwords')问题
刚开始按照提示，在上面提到的第一个目录下创建了一个nltk_data文件夹（刚开始家目录是没有的），然后把下载的数据复制到这个目录，并进行了解压，因为我查阅资料别人就是这样做的，但是发现不行。但是我看别人的博客下面评论说是可以的，不过它是把所有的nltk的数据都下载下来了，我当时就很不解，也打算下载所有的数据集，就在我下载数据集的时候，我想到了了Github上数据的存放结构
手动下载数据，解决nltk.download('stopwords')问题
当时我就想是不是需要创建一个packages/corpora，然后把数据放里面，尝试了下也不对，这就很难受了啊，不过我又试了下把packages删掉，nltk_data目录下面直接是corpora文件夹，然后把解压后的数据放进去，再次尝试，成功了！
记得数据一定要解压，一定要解压。
如果你还有问题或者其他的方法，欢迎在评论区交流。

手动下载数据，解决nltk.download('stopwords')问题

手动下载数据，解决nltk.download('stopwords')问题

相关推荐