我眼中的大语言模型

作为一个天天和大模型人工智能打交道的计算机学生,我对大模型的认知仍然十分浅薄,疑问与未知也在与日俱增。更不要说这还是一年就能大变天的火热领域了。我仅有的知识,在一片森林之中,顶多算是稀稀拉拉的一些叶子。不过,从兴趣和谋生技能的角度考虑,深入了解大模型并建立一些看似有道理的解释是十分有必要的。尽管如刚刚所说,知识是一片奇大无比的森林,每天都在长出难以统计的新叶,但是只要抓好关键的树干,哪怕仅仅一根也是能让你在这个领域拥有一席之地了。所以在此大致谈论一下我现阶段对大模型有什么认识,比如大模型为什么还是这么不好用,未来需要怎么让它变得好用,等等。

大模型现在仍然很难用,至少和它的顶级竞争者——人类本身来说,差距仍然很大。我认为一个原因是人脑能够提取及其复杂的高维特征。这些特征是基于人出生以来的经历所形成的,包括教育、学习、交际等等,即所谓“训练数据”。与大模型不同的地方是,人的经历是逻辑化的,因为源头是和物理世界进行交流。而逻辑化在于空间、时间、事件的起因经过结果等。只要你做过训练,你就知道对数据进行“逻辑化”是多么重要的事情。但是训练数据的逻辑化不是那么容易的一件事情,大模型尤其困难因为训练仅语言数据,并且语料太多太杂。于是相比于人接受到的信息,大模型接受到的可以说是一堆垃圾山了。不过得益于海量的数据以及远超人脑复杂度的模型,目前人们还是得到了令人惊讶的成果。

但是随着深入使用大模型,你会发现很多时候它无法理解你的思维方式。至少我感觉大模型其实大概也就做到了语言层面的理解,即知道大模型和大语言模型是一回事。然后习得了一些简单的思维方法,比如三段论(但实际上也经常抽风)。这就与人类区别巨大了,人是能从经历中总结出极为复杂的方法论的,不然哲学这门学科也没有存在的意义。所以二者的行为驱动因素上,大模型更多是数据驱动的语言模式识别,人更多是将语言投射到自己的认知与方法论这个抽象级别上进行思考,然后驱动复杂的行为。

但这也不能说是大模型的锅,因为模型本身还是很强悍的。现在能做到几百张卡一两个月从零训练出来一个模型,且至少能够达到一定语言水平。而要让一个人达到这个语言水平,至少得以十年为单位来培养。