写在前面的话

代码克隆检测的方法有很多，比如说 textual-based, token-based, tree-based, graph-based, metric-based,hybird based
使用的标准不同，代码克隆的检测分类也是不同的。（taxonomy）

Boreas: An Accurate and Scalable Token-Based Approach to Code Clone Detection

今天我们要翻译的是这一篇

这篇用的检测方法是基于 token 的

它引入了一个概念叫做counting Environment(CE) 来描述每一个变量

每一个变量可以表示成为一个 Count Vector(CV) 计数向量

我们把所有的CV合并在一起我们就可以构建出一个 Count Matrix(CM)

我们构建出一个CE的标准如下

Boreas: 一种基于token 的精确并且大规模检测代码克隆的方法

这样我们可以构建出一个10维的向量

它的向量的每一位表示如下：

看下面这个图应该很清楚了

Boreas: 一种基于token 的精确并且大规模检测代码克隆的方法