第一百一十一章 炼丹(第2/3 页)
学了9个学时,就被要求一个暑假里手撸一个图像识别算法的高材生,他有他自己的想法。
他要用强化学习。
“对于强化学习而言,我们的样本太少了。”哪里都要掺一脚的郑K一如既往地苦着脸说。
“少就少呗,又不是不能用。再说了,我们不是正在用老鼠造模吗?造完了样本就多了。”卢赫不以为然。
“具体思路呢?”郑K忧心忡忡地问。
“跟你们一样。特征是某时间点的基因组,标签是未来的突变位点,然后让单碱基编辑的载着相应向导RNA的cRISpR系统在那里等着,一旦突变了,就立刻给修复。把病扼杀在摇篮里。
非要说有什么不同,第一,我这是黑箱,只能发挥作用,却不知道怎么发挥作用;第二,我这基本算是端到端的、全自动的,人工干预只在定期查基因组和设计cRISpR系统,这部分工作未来也有希望自动化。
功过相抵,中规中矩。”
散会后,卢赫坐到电脑跟前,摩拳擦掌。
虽然不是专业人士,但一直跟进这方面进展的他,始终觉得那些在数年间如雨后春笋般涌现出来的大几十种方法里,强化学习最有前途。
因为这是最接近人类本能学习方式的一种。
它的原理也很简单,就是让懵懂的小人工智障在环境里学习,它的每个动作都对应一个奖励或者惩罚。
就像还在蹒跚学步的小时候的我们一样,我们看到了火,好奇心趋势我们走近,我们感受到了温暖,奖励加一;手贱去摸了一下被烫到,惩罚加一。
于是,聪明的我们就会知道,火很暖和但不能靠得太近。
只不过与人不同得是,小人工智障无法一次就学会,而是需要大量数据去支撑它在环境里反复探索,直到把自己训练成人工智能。
如果用玩超级玛丽来打比方,小人工智障在游戏的第一帧获得初始状态;
在此基础上,我们可以逼迫它往前走一步,不论前方是不是有蘑菇怪。这样它会主动做出第一个行动。
这时,它所处的环境发生了变化,获得了新的状态;
同时,根据它死没死,环境会给它一个奖励或惩罚。
如此循环下去,便得到了一个由状态、行动和奖励组成的序列。小人工智障的目标就是调整自己的状态和行动,以使奖励的期望值最大。
如果训练的顺利,它便有望进化为一命通关的人工智能外挂
本章未完,点击下一页继续。