矩阵(Matrix)
是由数字组成的矩形阵列
Rectangular arrty of numbers
Demensions of matrix: number of rows X number of columns
向量(vector)
一个向量是一种特殊的矩阵,其只有一列矩阵
An n X 1 matrix
also called n-dimensioned vector
多变量(多元)线性回归
Multivariate linear regression
多维特征
实际生活中,我们往往需要多个特征量

Hypothesis:
hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4
多维特征Hypothesis
多元线性回归 Multivariate linear regression
通用模型
hθ(x)=θ0(x0)+θ1x1+θ2x2+...+θnxn
For convenience of notation,define x0=1
x=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡x0x1x2...xn⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤∈Rn+1 θ=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡θ0θ1θ2...θn⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤∈Rn+1
hθ(x)=θTX
参数向量θ以及特征向量X的内积
多变量代价函数(cost function)
J(θ0,θ1,...,θn)=2m1∑i=1m(hθ(x(i))−y(i))2
可以把 n+1 个 θ参数想象成一个 n+1 维的向量 θ
梯度下降算法
Gradient descent algorithm
repeat until convergence{
θj:=θj−α∂θj∂J(θ0,θ1,...,θn)(for j = 0 and j=1)
}
单变量的下降算法

多变量的梯度下降算法

梯度下降法实践之特征缩放
feature scaling

面临的多特征问题(Problem):
特征之间的尺度(range)相差太大,需要加快梯度下降法的收敛速度,否则过于慢。比如有两个特征,房屋尺寸和房间数,房屋尺寸的范围是0-2000平方,房间数的范围是0-5间,差距太大导致绘制出来的椭圆形又扁又长,收敛速度太慢。
解决办法:Feature Scaling
让每一个特征约束到-1 到 +1 的范围内
Get every feature into approximately a −1≤xi≤1 range.
Note: 0≤x1≤3,−2≤x2≤0.5其实也都可以,但是−100≤x3≤100,−0.0001≤x4≤0.0001就不好了。
均值归一化 (Mean normalization)
抽象出来 x1←S1x1−μ1
μ1是在训练集中特征x1的平均值 average value of x1 feature in training set
S1 是该特征值的范围 ,最大值减去最小值 range : maximum value- minimum value