首页 > 历史军事 > 四进制数码管怎么表示 > 第一百一十一章炼丹

第一百一十一章炼丹(第2/3 页)

学了9个学时，就被要求一个暑假里手撸一个图像识别算法的高材生，他有他自己的想法。

他要用强化学习。

“对于强化学习而言，我们的样本太少了。”哪里都要掺一脚的郑K一如既往地苦着脸说。

“少就少呗，又不是不能用。再说了，我们不是正在用老鼠造模吗？造完了样本就多了。”卢赫不以为然。

“具体思路呢？”郑K忧心忡忡地问。

“跟你们一样。特征是某时间点的基因组，标签是未来的突变位点，然后让单碱基编辑的载着相应向导RNA的cRISpR系统在那里等着，一旦突变了，就立刻给修复。把病扼杀在摇篮里。

非要说有什么不同，第一，我这是黑箱，只能发挥作用，却不知道怎么发挥作用；第二，我这基本算是端到端的、全自动的，人工干预只在定期查基因组和设计cRISpR系统，这部分工作未来也有希望自动化。

功过相抵，中规中矩。”

散会后，卢赫坐到电脑跟前，摩拳擦掌。

虽然不是专业人士，但一直跟进这方面进展的他，始终觉得那些在数年间如雨后春笋般涌现出来的大几十种方法里，强化学习最有前途。

因为这是最接近人类本能学习方式的一种。

它的原理也很简单，就是让懵懂的小人工智障在环境里学习，它的每个动作都对应一个奖励或者惩罚。

就像还在蹒跚学步的小时候的我们一样，我们看到了火，好奇心趋势我们走近，我们感受到了温暖，奖励加一；手贱去摸了一下被烫到，惩罚加一。

于是，聪明的我们就会知道，火很暖和但不能靠得太近。

只不过与人不同得是，小人工智障无法一次就学会，而是需要大量数据去支撑它在环境里反复探索，直到把自己训练成人工智能。

如果用玩超级玛丽来打比方，小人工智障在游戏的第一帧获得初始状态；

在此基础上，我们可以逼迫它往前走一步，不论前方是不是有蘑菇怪。这样它会主动做出第一个行动。

这时，它所处的环境发生了变化，获得了新的状态；

同时，根据它死没死，环境会给它一个奖励或惩罚。

如此循环下去，便得到了一个由状态、行动和奖励组成的序列。小人工智障的目标就是调整自己的状态和行动，以使奖励的期望值最大。

如果训练的顺利，它便有望进化为一命通关的人工智能外挂

本章未完，点击下一页继续。

人人都爱龙霸天、

第一百一十一章 炼丹(第2/3 页)