关于使用tfds.load()函数加载tensorflow_datasets数据集由于网络无法加载的问题
当我们想要在本地运行一下tensorflow的一些demo时首先要做的就是加载数据集的问题,但是由于国内网络的问题加上tensorflow_datasets的数据集一般都是几百兆甚至一两个G,所以很容易劝退我等小白,既然网络直接加载数据集几乎不可能成功,那么一个比较容易想到的解决办法便是提前将数据集下载到本地,然后从本地加载tensorflow_datasets的数据集。
以tensorflow中的transformer葡萄牙语-英语翻译为例,我们需要加载的数据集为:
ted_hrlr_translate/pt_to_en;在网上搜了一圈发现没有办法直接下载(烦请搜到的同学可以告知我一下,多谢),我的做法是通过Google Colab来进行下载的,连接如下:理解语言的 Transformer 模型
进入之后点击如下图红圈所示的地方,会出现一个类似音乐软件那种“开始”的按钮,按一下便可以执行方框中的代码,但是前提是你得有谷歌的账号,申请谷歌账号的时候注意得选择一下国家,不然会报电话号码格式不对的错误从而无法申请。
接着再运行第二个框,这个框中的代码就是用来下载数据集的,我们需要找到文件下载的路径,如下图:
然后再到左边找到下图1红圈的图标并点击,再继续点击2红圈。
然后找到root目录,
下图便是文件的全部路径,右击文件便可以下载了,因为Google Colab不支持下载文件夹,所以我们只能一个文件一个文件的下载。
当下载完之后,加载的格式如下:
其中name就是数据集的名字,data_dir便是数据集所在的目录。