读书笔记——数学之美

“数学的魅力就在于将复杂的问题简单化”

“正确的数学模型在科学和工程中至关重要,而发现正确模型的途径常常是曲折的。正确的模型在形式上通常是简单的。”

“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的。——牛顿”

Truth is ever to be found in simplicity,and not in the multiplicity and confusion of things.

 

数学之外

 

读书笔记——数学之美

 

读书笔记——数学之美

 

读书笔记——数学之美

很多时候,指出不正确的比指出正确的要好很多。指出不正确的,可以避免让人重复犯错,又不像指出正确的那样禁锢人的思维。

 

贾里尼克

 

读书笔记——数学之美

维特比

 

读书笔记——数学之美

 

 

数学之内

1.语言的统计模型(条件概率公式)

“一个句子是否合理,就看它的可能性的大小”(贾里尼克)

S—由一串特定顺序排列的词w1,w2,……,wn组成

S在文本中出现的概率:

P(S) = P(w1,w2,w3,……,wn) = P(w1)P(w2|w1)P(w3|w1,w2)…P(wn|w1,w2,…,wn-1)

条件概率P(wn|w1,w2,…,wn-1)不好计算,假设任意一个单词wi的出现只与它前面一个单词wi-1有关(马尔可夫假设)

所以,P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wn|wn-1)

2.通信模型

很多跟输入和输出有关的问题都可以用这个模型

 

读书笔记——数学之美

 

3.隐含马尔可夫模型

是马尔可夫链的一个扩展,任意时刻t的状态St是不可见的,但每个时刻t会输出一个符号Ot,而且Ot跟St相关且仅跟St相关。(独立输出假设)

 

读书笔记——数学之美

 

应用:通信的解码问题、语音识别、机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析、股票预测与投资等领域。

4.信息

 

读书笔记——数学之美

5.布尔代数

——》索引

 

读书笔记——数学之美

 

6.图论——》网络爬虫(BFS&DFS)

7.PageRank

如果一个网页被其他网页所链接,说明它受到普遍的承认和信赖,它们的排名就高

 

读书笔记——数学之美

8.确定网页和查询的相关性

搜索关键词权重的科学度量TF_IDF

关键词频率或者单文本词频(Term Frequency)

逆文本频率指数(Inverse Document Frequency)它的公式为log(D/Dw)

D是全部网页数,假设关键词w在Dw个网页中出现过

9.余弦定理

两篇新闻的特征向量夹角越小,就越接近

10.矩阵运算

计算新闻相关性时,矩阵过大,利用奇异值分解(Singular Value Decomposition)

 

读书笔记——数学之美

11.信息指纹

利用信息指纹减少存储,用于网址消重等搜索查询工作和加密,判断集合是否相同,YouTube视频反盗版,相似哈希

12.最大熵模型

”保留全部的不确定性,将风险降到最小“

”对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。“

 

希萨指出,最大熵模型不仅存在,而且还唯一,它们都有相同的形式——指数函数

 

读书笔记——数学之美

13.拼音输入法

香农第一定理:对于一个信息,任何编码长度都不小于它的信息熵

 

读书笔记——数学之美

14.布隆过滤器

 

读书笔记——数学之美

 

读书笔记——数学之美

15.贝叶斯网络

马尔可夫链的扩展

 

读书笔记——数学之美

16.维特比算法

 

读书笔记——数学之美

 

读书笔记——数学之美

 

读书笔记——数学之美

CDMA

17.最大期望算法

文本的自收敛分类

 

读书笔记——数学之美

 

读书笔记——数学之美

 


读书笔记——数学之美