HTTP错误403禁止 - 下载nltk数据时

问题描述:

我面临访问nltk data时遇到的一些问题。我试过nltk.download()。 gui页面出现HTTP Error 403: Forbidden错误。我也尝试从提供here的命令行进行安装。HTTP错误403禁止 - 下载nltk数据时

python -m nltk.downloader all 

并得到此错误。

C:\ Python36 \ lib中\ runpy.py:125:RuntimeWarning:在sys.modules中发现包的 'NLTK' 导入后 'nltk.downloader',但在此之前“nltk.downloader的执行“;这可能会导致不可预知的行为警告(RuntimeWarning(msg))[nltk_data]加载全部错误:HTTP错误403:禁止。

我也经历How do I download NLTK data?Failed loading english.pickle with nltk.data.load

问题来自nltk下载服务器。如果你看一下GUI的配置,它指向该链接

https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml 

如果您访问在浏览器这个环节,你会得到这样的消息:

Error 403 Forbidden. 

Forbidden. 

Guru Mediation: 

Details: cache-lcy1125-LCY 1501134862 2002107460 

Varnish cache server 

所以,我要提交github上的一个问题,但其他人已经这样做了:https://github.com/nltk/nltk/issues/1791

此处提出了一种解决方法:https://github.com/nltk/nltk/issues/1787

基于GitHub上的讨论:

这似乎是Github的下跌/上 回购阻止访问原始内容。

建议的解决方法是手动下载如下:

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt 
+0

我下载的数据手动形成https://github.com/nltk/nltk_data/archive/gh-pages.zip并放入目录中提取。基本上哪些数据对我来说是需要的,并且工作得很好。谢谢。 –

转至/ NLTK /下载:

PATH_TO_NLTK_DATA=/home/username/nltk_data/ 
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip 
unzip gh-pages.zip 
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA 

人们还使用如下的laternative指标建议。PY

并更改默认网址:

DEFAULT_URL = 'http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'

DEFAULT_URL = 'http://nltk.github.com/nltk_data/'

对我来说,最好的解决办法是:

PATH_TO_NLTK_DATA=/home/username/nltk_data/ 
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip 
unzip gh-pages.zip 
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA 

link

替代解决方案是不是为我工作

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt