HTTP错误403禁止 - 下载nltk数据时

问题描述：

我面临访问nltk data时遇到的一些问题。我试过nltk.download()。 gui页面出现HTTP Error 403: Forbidden错误。我也尝试从提供here的命令行进行安装。HTTP错误403禁止 - 下载nltk数据时

python -m nltk.downloader all

并得到此错误。

C：\ Python36 \ lib中\ runpy.py：125：RuntimeWarning：在sys.modules中发现包的 'NLTK' 导入后 'nltk.downloader'，但在此之前“nltk.downloader的执行“;这可能会导致不可预知的行为警告（RuntimeWarning（msg））[nltk_data]加载全部错误：HTTP错误403：禁止。

我也经历How do I download NLTK data?和Failed loading english.pickle with nltk.data.load。

答

问题来自nltk下载服务器。如果你看一下GUI的配置，它指向该链接

https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

如果您访问在浏览器这个环节，你会得到这样的消息：

Error 403 Forbidden. 

Forbidden. 

Guru Mediation: 

Details: cache-lcy1125-LCY 1501134862 2002107460 

Varnish cache server

所以，我要提交github上的一个问题，但其他人已经这样做了：https://github.com/nltk/nltk/issues/1791

此处提出了一种解决方法：https://github.com/nltk/nltk/issues/1787。

基于GitHub上的讨论：

这似乎是Github的下跌/上回购阻止访问原始内容。

建议的解决方法是手动下载如下：

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt

我下载的数据手动形成https://github.com/nltk/nltk_data/archive/gh-pages.zip并放入目录中提取。基本上哪些数据对我来说是需要的，并且工作得很好。谢谢。 –

答

转至/ NLTK /下载：

PATH_TO_NLTK_DATA=/home/username/nltk_data/ 
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip 
unzip gh-pages.zip 
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

人们还使用如下的laternative指标建议。PY

并更改默认网址：

DEFAULT_URL = 'http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'

到

DEFAULT_URL = 'http://nltk.github.com/nltk_data/'

答

对我来说，最好的解决办法是：

PATH_TO_NLTK_DATA=/home/username/nltk_data/ 
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip 
unzip gh-pages.zip 
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

link

替代解决方案是不是为我工作

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt

HTTP错误403禁止 - 下载nltk数据时

相关推荐