初学者的十大机器学习算法

阅读本博客后,您将能够理解一些流行且令人难以置信的机器学习算法背后的基本逻辑,这些算法已被交易社区使用,并作为您踏上创建最佳机器学习的基石。这些算法是:

  • 线性回归
  • 逻辑回归
  • KNN分类
  • 支持向量机(SVM)
  • 决策树
  • 随机森林
  • 人工神经网络
  • K均值聚类
  • 朴素贝叶斯定理
  • 递归神经网络(RNN)

线性回归

最初在统计学中发展以研究输入和输出数值变量之间的关系,机器学习社区采用它来基于线性回归方程进行预测。

线性回归的数学表示是一个线性方程,它组合了一组特定的输入数据(x)来预测该组输入值的输出值(y)。线性方程为每组输入值分配一个因子,称为希腊字母Beta(β)表示的系数。

下面提到的等式表示具有两组输入值x 1和x 2的线性回归模型。y表示模型的输出,β 0,β 1和β 2是线性方程的系数。

Y =β 0 +β 1 X 1 +β 2 X 2

当只有一个输入变量时,线性方程表示一条直线。为了简单起见,考虑β 2是等于零,这将意味着,变量x 2不会影响线性回归模型的输出。在这种情况下,线性回归将代表一条直线,其方程式如下所示。

Y =β 0 +β 1 X 1

线性回归方程模型的图如下所示
初学者的十大机器学习算法
线性回归可用于查找一段时间内股票的一般价格趋势。这有助于我们了解价格变动是正面还是负面。

逻辑回归

在逻辑回归中,我们的目标是产生1或0的离散值。这有助于我们找到对我们场景的明确答案。

逻辑回归可以在数学上表示为,

初学者的十大机器学习算法

逻辑回归模型计算类似于线性回归的输入变量的加权和,但它通过特殊的非线性函数,逻辑函数或sigmoid函数运行结果以产生输出y。

sigmoid / logistic函数由以下等式给出。

y = 1 /(1+ e -x)
初学者的十大机器学习算法
简单来说,逻辑回归可用于预测市场的方向。

KNN分类

K近邻(KNN)分类的目的是将数据点分成不同的类,以便我们可以基于相似性度量(例如距离函数)对它们进行分类。

从某种意义上说,KNN学习它不需要一个明确的训练阶段,并开始对其邻居的多数投票决定的数据点进行分类。

该对象被分配给在其k个最近邻居中最常见的类。

让我们考虑将绿色圆圈分类为第1类和第2类的任务。考虑基于1个最近邻居的KNN的情况。在这种情况下,KNN会将绿色圆圈分类为第1类。现在让我们将最近邻居的数量增加到3,即3最近邻居。正如您在图中看到的那样,圆圈内有“两个”第2类对象和“一个”第1类对象。KNN将绿色圆圈归类为第2类对象,因为它占大多数。
初学者的十大机器学习算法

支持向量机(SVM)

支持向量机最初用于数据分析。最初,将一组训练示例馈入SVM算法,属于一个或另一个类别。然后,该算法构建一个模型,该模型开始将新数据分配给它在训练阶段学到的一个类别。

在SVM算法中,创建超平面,其用作类别之间的分界。当SVM算法处理新数据点时,根据它出现的一侧,它将被分类为一个类。
初学者的十大机器学习算法
当与交易相关时,可以构建SVM算法,其将权益数据分类为有利的买入,卖出或中性类别,然后根据规则对测试数据进行分类。

决策树

决策树基本上是一种树状支持工具,可用于表示原因及其影响。由于一个原因可能有多种效果,我们将它们列下来(非常像带有分支的树)。
初学者的十大机器学习算法
我们可以通过组织输入数据和预测变量,并根据我们将指定的一些标准来构建决策树。

构建决策树的主要步骤是:

  1. 检索金融工具的市场数据。
  2. 介绍预测变量(即技术指标,情绪指标,广度指标等)
  3. 设置Target变量或所需的输出。
  4. 在训练和测试数据之间拆分数据。
  5. 生成决策树训练模型。
  6. 测试和分析模型。

决策树的缺点在于它们由于其固有的设计结构而易于过度拟合。

随机森林

一个随机森林算法旨在解决一些决策树的局限性。

随机森林由决策树组成,决策树是表示其行动过程或统计概率的决策图。这些多棵树映射到一棵树,称为分类和回归(CART)模型。

为了根据对象的属性对对象进行分类,每个树都给出了一个分类,据说该类对该类进行“投票”。然后森林选择具有最多票数的分类。对于回归,它考虑不同树的输出的平均值。

初学者的十大机器学习算法
随机森林以下列方式工作:

  • 假设案例数为N.将这N个案例的样本作为训练集。
  • 将M视为输入变量的数量,选择数m使得m <M。m和M之间的最佳分割用于分割节点。随着树木的生长,m的值保持不变。
  • 每棵树都尽可能大。
  • 通过聚合n个树的预测(即,用于分类的多数投票,用于回归的平均值),预测新数据。

人工神经网络

在我们寻求上帝的过程中,人工神经网络是我们最重要的成就之一。我们已经创建了多个相互连接的节点,如图所示,它模仿了我们大脑中的神经元。简单来说,每个神经元通过另一个神经元接收信息,对其进行处理,并将其作为输出传递给另一个神经元。
初学者的十大机器学习算法
每个圆形节点代表一个人造神经元,箭头代表从一个神经元的输出到另一个神经元的输入的连接。

如果我们使用它来查找各种资产类别之间的相互依赖性,而不是尝试预测买入或卖出选择,那么神经网络会更有用。

K均值聚类

在该机器学习算法中,目标是根据数据点的相似性来标记数据点。因此,我们不在算法之前定义聚类,而是在算法前进时找到这些聚类。

一个简单的例子是,鉴于足球运动员的数据,我们将使用K-means聚类并根据它们的相似性对它们进行标记。因此,这些集群可以基于前锋在任意球或成功铲球上得分的偏好,即使算法没有给出预先定义的标签。

K-means聚类对于那些认为表面上看不到的不同资产之间可能存在相似性的交易者是有益的。

朴素贝叶斯定理

现在,如果你记得基本概率,你会知道贝叶斯定理是以我们假设我们事先知道与前一事件有关的任何事件的方式制定的。

例如,要检查您迟到办公室的可能性,我们想知道您是否在途中遇到任何流量。

然而,朴素贝叶斯分类器算法假设两个事件彼此独立,因此,这在很大程度上简化了计算。Naive Bayes最初只是一个学术练习,它表明它在现实世界中的表现非常好。

朴素贝叶斯算法可用于在不具有完整数据的情况下找到不同参数之间的简单关系。

递归神经网络(RNN)

您知道Siri和Google智能助理在他们的编程中使用RNN吗?RNN本质上是一种神经网络,其具有连接到每个节点的存储器,这使得处理顺序数据变得容易,即一个数据单元依赖于前一个数据单元。

解释RNN优于普通神经网络的一种方法是我们应该按字符处理一个单词。如果单词是“交易”,则正常的神经网络节点在移动到“d”时将忘记字符“t”,而循环神经网络将记住该字符,因为它具有自己的存储器。
初学者的十大机器学习算法

结论

根据Preqin的一项研究,已知有1,360种定量基金在其交易过程中使用计算机模型,占所有基金的9%。像Quantopian这样的公司为个人的机器学习策略组织现金奖励,如果它在测试阶段赚钱,事实上,投资他们自己的钱并将其带入实时交易阶段。因此,在比竞争领先一步的竞赛中,每个人,无论是数十亿美元的对冲基金还是个人交易,都试图在他们的交易策略中理解和实施机器学习。