HTTP错误403禁止 - 下载nltk数据时
我面临访问nltk data
时遇到的一些问题。我试过nltk.download()
。 gui页面出现HTTP Error 403: Forbidden
错误。我也尝试从提供here的命令行进行安装。HTTP错误403禁止 - 下载nltk数据时
python -m nltk.downloader all
并得到此错误。
C:\ Python36 \ lib中\ runpy.py:125:RuntimeWarning:在sys.modules中发现包的 'NLTK' 导入后 'nltk.downloader',但在此之前“nltk.downloader的执行“;这可能会导致不可预知的行为警告(RuntimeWarning(msg))[nltk_data]加载全部错误:HTTP错误403:禁止。
我也经历How do I download NLTK data?和Failed loading english.pickle with nltk.data.load。
问题来自nltk下载服务器。如果你看一下GUI的配置,它指向该链接
https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
如果您访问在浏览器这个环节,你会得到这样的消息:
Error 403 Forbidden.
Forbidden.
Guru Mediation:
Details: cache-lcy1125-LCY 1501134862 2002107460
Varnish cache server
所以,我要提交github上的一个问题,但其他人已经这样做了:https://github.com/nltk/nltk/issues/1791
此处提出了一种解决方法:https://github.com/nltk/nltk/issues/1787。
基于GitHub上的讨论:
这似乎是Github的下跌/上 回购阻止访问原始内容。
建议的解决方法是手动下载如下:
python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt
转至/ NLTK /下载:
PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA
人们还使用如下的laternative指标建议。PY
并更改默认网址:
DEFAULT_URL = 'http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'
到
DEFAULT_URL = 'http://nltk.github.com/nltk_data/'
对我来说,最好的解决办法是:
PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA
替代解决方案是不是为我工作
python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt
我下载的数据手动形成https://github.com/nltk/nltk_data/archive/gh-pages.zip并放入目录中提取。基本上哪些数据对我来说是需要的,并且工作得很好。谢谢。 –