牛津大学CS课程_Deep learning for NLP

翻译来自牛津大学cs课程 NLP的deep learning
github地址:https://github.com/oxford-cs-deepnlp-2017/lectures

前言

这是一门关于自然语言处理的进阶课程。自动处理自然语言输入和产生语言输出是人工智能的关键组成部分。人类交流中固有的模糊性和噪声使得传统的特征型AI技术在语言数据的分析和呈现上的作用有限。最近基于神经网络的统计技术在自然语言处理方面取得了许多显着的成功,从而在该领域产生了大量的商业应用和学术研究。

这是一门应用课程,侧重于使用递归神经网络分析和生成语音和文本的最新进展。我们介绍相关机器学习模型的数学定义,并推导出它们相关的优化算法。该课程涵盖NLP中神经网络的一系列应用,包括分析文本中的潜在维度,将语音转录为文本,在语言之间进行翻译以及回答问题。这些主题分为三个高级主题:理解使用神经网络进行顺序语言建模的过程;了解它们作为转换任务的条件语言模型的用途;以及将这些技术与其他高级机制结合使用的方法。在整个课程中,还会讨论这些模型在CPU和GPU硬件上的具体实现。

讲师

Phil Blunsom (Oxford University and DeepMind)
Chris Dyer (Carnegie Mellon University and DeepMind)
Edward Grefenstette (DeepMind)
Karl Moritz Hermann (DeepMind)
Andrew Senior (DeepMind)
Wang Ling (DeepMind)
Jeremy Appleyard (NVIDIA)
都是大佬。。。

Lecture 1a Introduction

1.知识储备

数学:

线性代数 微积分 概率学

机器学习:

coreML 评估模型,过拟合,泛化和正则化,线性回归和分类,神经网络

编程:

Torch, Tensorflow, Theano, DyNet 等神经网络工具包

2.课程简介

这门课程概览了深度学习技术在一系列自然语言处理方面的应用。
这并不是一门 NLP的普通课程。我们将会讲到很多关于语言学、计算语言学的有趣的深度学习案例。

3.语义理解

来自CNN的文章:

文档内容

The BBC producer allegedly struck by Jeremy Clarkson will not press charges against the “Top Gear" host, his lawyer said Friday. Clarkson, who hosted one of the most-watched television shows in the world, was dropped by the BBC Wednesday after an internal investigation by the British broadcaster found he had subjected producer Oisin Tymon “to an unprovoked physical and verbal attack." . . .(大猩猩真是英国哪儿都有你。。。

问题

Who does the article say will not press charges against Jeremy Clarkson?
文章中谁不会对大猩猩(Jeremy Clarkson)提出指控?

答案

Oisin Tymon

4.语音处理和机器翻译

牛津大学CS课程_Deep learning for NLP

5.图像理解

牛津大学CS课程_Deep learning for NLP

6.语言结构

牛津大学CS课程_Deep learning for NLP
讲到这里第一章就结束了,可能看的有点懵逼。
这门课主要还是侧重于NLP,对于deep learning更多的是作为一种工具,视频中也讲了这门课的编程语言和工具都没有限制(P你们偏爱Apple)。
在语义理解那张PPt中,Phil Blunsom讲的是当提出问题之后,机器模型要学习两件事,首先要明白文档的语义是producer 不会对clarkson提出指控,然后识别出producer的名字是Oisin Tymon。最后给出正确的答案。Phil还提到现在他们有模型能做。对NLP有兴趣的同学不妨想想应该怎么处理。Speech processing中,Phil讲到deep learning model用于语音翻译没什么问题,下一张讲了图像识别dl也很厉害(别吹了我懂。。。),以上主要介绍了dl模型的应用领域。最后一张则用了感官,习惯用语和不同的代词指代三个例子,说明了语言结构超出逻辑的情况,是NLP的超级大难点了(中文的泪奔了)

关于内容

其实看到这里很大程度上会觉得啥都没讲(他确实啥都没讲。。。)
很多国外的大学课程是这样的,一开始就Intro嘛,好像啥都没简单的很,然后一开始讲内容…残暴的本质就露出来了,反正就是各种听不懂看不懂学不会。。。。习惯就好了

随着技术的发展,NLP肯定会成为将来计算机in/out的基础学科之一,国内走在前面的公司也有很多,Hanlp和IK之类的,总体上是用的多,研究的少。其实NLP还是很有魅力的,机器学习算是打开了新的大门,这门课我也没看完,算是看到哪翻到哪吧。