aws 未完成sagemaker ner
命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具。
英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
https://aws.amazon.com/cn/blogs/china/use-amazon-sagemaker-to-run-chinese-named-entity-recognition-based-on-tensorflow/?nc1=b_rp
https://www.bilibili.com/video/BV1f5411s7Yz?from=search&seid=16029321477206824532
可以直接用他的notebook
右上角创建实例
环境和notebook 一样 存储空间什么的配置自己选
1.2 下载代码和数据
笔记本启动后,打开页面上的终端,执行以下命令下载代码:
cd ~/SageMaker
git clone https://github.com/whn09/albert-chinese-ner.git
这个是放大的,不知道怎么点开terminal的
默认会保存在根目录下 但是你关掉notebook会消失掉
只有你放在sagemaker下才好
配置,训练好的参数,词典等等
果然是老了,就这你都能给忘了。。。
进入到这个环境了
你可以去github看它怎么运行起来,这个稍微改动了
没写完 nabidia-smi
albert只是对bert做了一个改进
比如他做了一个简历的标注,就对ner进行改造 就是要标注成什么
需要分布式 或者批量训练 就ok
多机并行有config
放验证数据集和测试数据集
model是放你训练的目录
output 是输出
aws有 DeepLearning container 你可以下载相应的包 会比 海外的官网快
代码数据放到一个地方 你也可以设置到底上传什么
设置 sagemaker运行什么代码
名字就是train的脚本
没看完有时间再说吧