会议大厅,罗靖环视众人道:“比如一个问题是对一个小孩解释什么是登入火星,给的回答是一些人去了火星。然后把这些对话内容作为一个数据集,让灵境GPT进行学习,但光是上课不能毕业,想要毕业就得做题、考试。”

罗靖环视众人笑道:“其实就是一个反馈机制,所以我们接下来的任务是要给灵境GPT加上来自人类反馈的强化学习,也就相当于是参加考试。回答错误,重修;回答正确,进一步学习,直到灵境GPT通过考试拿到足够的学分来证明自己的能力。”

回头瞄了眼会议大屏幕并且按了下小遥控器,罗靖条理清晰地说:“具体怎么做呢?还是刚刚的问题举例,给一个小孩解释什么叫登陆火星,让微调过的也就是上完课程的灵境GPT来回答,会生成四個答案,A解释重力、B解释战争、C解释火星是一个天体、D人类去了火星。”

说到这里,罗靖顿了片刻继续说道:“然后就是根据真实、无害、有帮助等若干维度来给这些答案排序、评分,排序结构就是D>C>B=A,之后就是将这些问题和答案以及答案的排序,将这些数据集拿来训练一个奖励模型,训练的目标是让建立模型的评分标准接近人工排序标准。”

“相当于是训练一个AI老师,之后就是最后一步了,通过强化学习来继续训练微调后的灵境GPT,把生成的答案拿去给前面训练好的奖励模型进行打分,根据打分来调整,最终就是灵境GPT生成的答案获得的分数越高越好,一个语言大模型就诞生了。”

罗靖环视在场的工程师们:“随着持续的学习、不断的数据投喂,用海量的数据对灵境GPT进行训练,直到突破某个临界值节点的那一刻,它将表现的越来越像人,以至于一个普通人隔着屏幕跟它聊天的时候甚至都无法察觉对方是个AI。”

接下来,罗靖继续讲述这个语言模型的内核,在场的工程师们直呼开眼,这要是成功了简直不得了。

这就是T10级大神么?

末了,罗靖突然话锋一转,旋即说道:“但灵境GPT的大模型以此开发,还是有它自身的局限性,而且这种局限性是先天注定的。”

与会的工程师们一言不发,一个个都认真的听着,大部分人还在做笔要纪录。

罗靖说道:“要让灵境GPT能够‘读懂’人类的语言是基于统计学规律靠死记硬背,那就意味着它没有接触过的知识是不知道的,比方说投喂给灵境GPT的历史数据知识是截止到2010年,

「如章节缺失请退出#阅#读#模#式」

你看#到的#内#容#中#间#可#能#有#缺#失,退#出#阅#读#模#式,才可以#继#续#阅#读#全#文,或者请使用其它#浏#览#器

章节目录 下一页

崛起从金融开始所有内容均来自互联网,快小说只为原作者昭灵驷玉的小说进行宣传。欢迎各位书友支持昭灵驷玉并收藏崛起从金融开始最新章节第097章【远程控制账户托管量化交易】