DNA、自指、自打印程序

我们清楚,DNA能进行自我复制,是因为DNA中编码了复制自己的代码,实际上这种自我复制的机制并不简单,而且非常迷人。侯世达在其大作《GEB》中花了一章来讲述DNA的自复制机制。他指出,自复制的DNA和自指的句子有着某种相似性,而且都与人的自我意识相似。自我意识实际上就是一种自指的现象。

接下来我们从自指的句子说起。什么是自指的句子,举例来说:

“本句子虽然很长,但是毫无意义。”

上面这句话就是自指的句子,它说的是某句话冗长而空洞,而那句话恰好是它自身。这么来看自指的句子很容易构造,以“本句话”开头就行;这样我们还能轻松的构造出一篇自指的文章,只要文中有“本文”两个字就行。简单吗?至少表面如此。自指类似于一个循环,这种结构的自指实际上把大量的工作交给处于循环中的读者,它靠一个“本”字引起其读者大脑中的已有的处理自指的过程,而句子本身的结构实际上并不包括任何自指。这种自指类型没有向我们揭示出自指结构的复杂和奇妙,一切自指处理仍然是深藏在我们的大脑中。

如何构造一个句子,仅仅通过分析其结构就能知道它是自指的呢?

“包含十四个字的句子可能是首诗。”

上面这句话也是自指的。它的特点是,其中并不包括“本句子”,但是我们可以通过分析它的结构(数一数它自己的字数)就知道它说的是自己。现在已经离我们的目标近了一步,不过总觉得有什么不对劲。这个句子所描述的不仅仅是它自己,它实际上指向的是一大类句子,即所有由十四个字构成的句子。我们说的自指,更希望是自己精确地指向自己,而不是通过自己所属的类别来指向自己,犹如让一个人说说自己的特点,他却总是说人类有什么特点。


DNA、自指、自打印程序
图1. 精确自指与指向自己的类

很容易弄明白这种自指结构的生成过程:句子可以任意长,主语是“包括XX个字的句子”,XX是包括“XX”在内的句子的长度。我们试着改进一下,让它更精确地指向自己:

“包含二十二个字的句子,其第一个字是“包”,可能是首诗。”

范围已经缩小至以“包”字开头的包含二十二个字的句子,显然限定越多,指向的句子就越少。是不是通过这种方法最后能实现精确地自指呢?仔细分析就知道,用这种方法递归到无穷也得不到自指。为了描述原来的十四个字,我们加上了“其第一个字是“包””、“其第二个字是“含””等短语,可是这些加上的短语又成为了句子的一部分,为了描述它们,又不得不加上“其第X个字是“其””、“其第X+1个字是“第””等等,显然描述一个字就得增加好多个字,有穷乃至无穷的情况下都得不到自己对自己的完全描述。这种尝试很像是提着鞋带把自己提起来,无论如何也办不到。

此路不通,我们再回过头瞧一瞧DNA的自复制原理,或许能受到些启发。自复制实际上就是自己打印自己,这个过程中显然需要能指向被打印的对象,也就是自指。DNA中并没有包含自描述的代码,就像上面分析的,一个东西包含对它自己的每一部分的描述是不可能的。DNA通过转录翻译生成蛋白质,然后由蛋白质再回过头来复制DNA,从而完成了一个DNA的复制循环。一个人不可能提着自己的鞋带把自己提起,但是他可以拉着单杠把自己提起。也就是,自指的核心要素可能在于需要一个外部的翻译过程。DNA只管生成蛋白质,不用管自复制的事情,而一部分特定的蛋白质恰好可以复制DNA,二者一旦结合起来,就会形成稳定的DNA和蛋白质的相互生成,站在DNA角度看,刚好就实现了自复制。


DNA、自指、自打印程序
图2. 借助外部环境的自指

我们如法炮制(实际上是哲学家蒯因最先提出来的),定义一个对短语的变换:后粘。“后粘”是自己起的名字,意思是在后面粘贴(GEB一书中侯世达给变换起的名字叫“㧟摁”)。后粘,就是把一个种子短语放在它自己的后面形成一句话,举个例子:

“吃了饭要散步”吃了饭要散步。

这句话把短语“吃了饭要散步”放在它自己的后面,形成了语义完整的一句话,意思是“吃了饭要散步”这个东西吃过饭之后要散步。

我们选取种子短语D为“被后粘是一首诗”,看看把它后粘后是什么:

“被后粘是一首诗”被后粘是一首诗。 ——句子J

称上面的句子为句子J,句子J语义完整,说的是某句子K是一首诗,而那句子是短语D被后粘形成的。我们根据后粘变换来生成句子K:

“被后粘是一首诗”被后粘是一首诗。 ——句子K

句子K就是句子J!句子J说句子K是一首诗,那么它是确定无疑地说自己是首诗,句子J在自指。

通过定义一个外部操作,我们实现了句子的自指,这和DNA与蛋白质配合实现DNA的自复制何其相似。

了解了句子自指的精髓,我们就可以写出能自己打印自己的程序。这里以Matlab代码为例。可想而知,自打印的程序中必不可少的语句是“fprintf()”,下面这句话是行不通的:

fprintf('fprintf()')

这句话执行后的结果是fprintf(),而:

fprintf('fprintf(''fprintf()'')')

和上面的情况类似,也是行不通的。无论代码中嵌套了多少层fprintf(),打印结果总要少一层。实际上这种方法就是上文提到的自描述的方法。

我们可以定义一个变量s,通过打印s就能打印出来包括s的定义在内的所有代码,结果如下:

% 这是一段可以打印自己的代码

s = 's = %s%s%s;\nfprintf(s,char(39),s,char(39))';

fprintf(s,char(39),s,char(39))

将上述代码保存到一个单独的.m文件中并运行,看看输出结果是什么。代码中出现了char(39),是单引号的ascii码,想想为什么不直接用单引号而要用其ascii码,这一点和DNA与蛋白质相互成全的现象有关吗?另外打印出的代码中不包括注释行,如何修改代码能实现注释行也能正确的打印?

作为对比,再试试下面简洁而不正确的自打印代码,看看它的问题在哪儿?

% 这是一段错误的可以打印自己的代码

s = 's = ''%s'';\nfprintf(s,s)';

fprintf(s,s)