中国财经之窗 - 财经信息聚合平台
中国财经之窗

OpenAI又上了一个新台阶

栏目:财经    来源:IT之家    作者:肖鸥    发布时间:2021-08-11 16:51   阅读量:6077   

刚刚,OpenAI又上了一个新台阶。

只要输入自然句子,AI就会自动玩小游戏!

焦点:不!使用!你!化妆!程!

来,感受这种感觉。

第一步,小人可以通过输入一个单词使其根据方向键左右移动:

现在用左右箭头键控制它。

AI理解需求后,自动编程,然后小人就真的可以左右移动了。

第二步,将石头订婚,输入同一句话使其从天而降:

现在让它从天而降,并环绕。

第三步,简单的用自然语言制定一些规则,小个子被石头砸到就停止游戏。

不断检查人和巨石是否重叠,如果重叠,你就输了。

最后,让AI生成一个结束提示,应该包含一个鼓励的词。

AI选择了再试一次!

当然也有规则比较复杂的小游戏,也可以用同样的方式分分钟生成:

这是魔法!现在小游戏的发展就靠打字了。

观看直播的观众也发出了同样的感慨,看着这满屏的弹幕:

有网友甚至高呼:

编程已经成为AI自己的游戏。

这是OpenAI发布的新产品——Codex,一款可以自己编程的AI。

AI编程并不新鲜,就像不久前对GitHub大做文章的Copilot就是其中之一。

但背后的技术其实来自于OpenAI。

可是,这一次,OpenAI将自己的能力提升到了一个新的水平。

不仅如此,玩一个小游戏只是Codex能力的冰山一角。

让我们体验一下它更惊艳的表现。

不要打字,直接语音命令吧!

为AI打需求还是有点麻烦。

你能直接说话发号施令吗。

这真的可以存在!

这次OpenAI与微软合作,制作了一个Word插件,带来了这个语音控制功能。

直接面对AI命令去掉每行开头的空格,AI通过微软给出的界面成功执行:

啪的一声,全文左对齐。

而且AI准确理解命令的含义,段与段之间的空行没有变化。

让我们做一些更复杂的事情。

给AI五行加粗的命令也很容易拿捏:

这种对任务的指挥,会有人给你完成的感觉,是不是很像一个老员工指挥一个实习生。

总之,比罗永浩几年前发布的TNT系统语音办公强了一点亿。

除了官方演示之外,本次内测的用户aniakubow还让AI执行了152字的描述,生成了一个网页。

这里可以看到,Codex使用Javascript操作Document对象生成网页,这可能是因为训练集中没有直接的HTML代码。

最后,除了现场演示,OpenAI还在Arxiv上发布了Codex论文的预印版。

在这篇论文中,Codex不得不面对的挑战甚至包括IOI和ACM难度的竞赛题!

Codex采用每道题生成1000个答案的暴力方法,能让600多道竞赛题的3.23%的测试集全部通过测试用例。

加州大学伯克利分校的研究人员刚刚在5月份完成了这套编程主题测试。

当时GPT—2,GPT—3,开源GPT—尼奥在比赛难度上全军覆没,一个都没有做成。

没想到,短短两个多月,为代码而生的Codex,洗去了前辈的耻辱。

Codex的魔力是如何实现的。

有这么酷的能力,还像GPT—3那样堆数据,努力创造奇迹吗。

不完全是这次Codex最大的版本是120亿参数,比GPT—3的1750亿参数小很多

要了解具体情况,要从它的发展过程入手。

最早,OpenAI研究人员用GPT—3做了各种实验,发现GPT—3可以从Python注释中生成一些简单的代码。

这让他们很开心,因为GPT—3根本没有专门用代码训练,只是在博客和帖子里看了一些零星的代码片段。

考虑到GPT—3在自然语言方面的出色表现,如果你训练一个GPT—3的代码版本,肯定会再次震惊业界。

所以他们找到了GitHub,这个拥有最开放源代码的小伙伴来合作。

一开始我得到了179G的Python代码,但是有一些太长了,明显是自动生成的。

剔除这些不合格代码后,最终代码大小为159G。

当然,下一步是进行预训练,并将所有这些代码输入人工智能。

但是这里有一个问题:

在GitHub上

的开源代码难免会有 Bug,AI 学了一堆有问题的代码可咋办。

其实这倒也好说,预训练之后不是还要微调嘛。

微调的时候,全用编程竞赛里的正确答案,以及 PyPI 里的靠谱开源代码就可以了。

最后,120 亿参数版的 Codex,能对 28.81% 的问题给出正确答案。

这个准确率超过之前的开源代码预训练模型 GPT—Neo 和 GPT—J,还有基于 GPT—2 的代码补全工具 TabNine。

这个成绩虽然不错,不过离能实际应用还是有点远了。

不过,这也难不住 OpenAI 的研究团队。

他们很快便想到了突破口:

人类编程的时候,不也经常先出一个版本,然后反复修改 bug 嘛~

那就让 AI 像人一样反复修改,改出 100 个版本来,从中总能挑出几个正确的来。

用上这种拿量堆出来的方法,Codex 的最终成绩是:

77.5%!

强,但不完全强

Codex 令人惊艳的表现,一度让网友们大呼:

要失业了要失业了!

有人直接在公屏上打出:再见了,计算机专业的学子们。

不过大家也不必如此担心,因为在演示过程中,其实就出现了翻车的情况。

在输入Say Hello World with empathy后,Codex 给出的结果居然还是Hello World with empathy。

这也侧面说明了 Codex 现在还不是完美的。

OpenAI 就表示:

即便是参数达到 120 亿的 Codex 12B,它的能力可能也还不如一位编程刚刚入门的学生。

虽然 Codex 学习上亿行代码,但它更大程度是记住了这些代码,并不是真正意义上的懂编程语言。

而且 Codex 对长字符串的理解也比较困难。

并且伴随着字符数量的增加,Codex 的性能表现下降得非常明显。

在这种情况下,Codex 就不能很好地理解用户的意图,结果可想而知,给出的代码可能就是完全错误的了。

此外,在理解变量和运算较多的注释时,Codex 也会犯错:

在这个例子中,120 亿参数版的 Codex,忘记了对变量 w 做减法,也没有返回所有数字的乘积。

这些对于还在学习编程的新手程序员而言,非常不友好。

而且由于生成的代码准确性和正确性都还不能保证,因此在安全问题上也存在一定风险。

不仅如此,OpenAI 还表示,Codex 会生成带有种族歧视的内容。

在社会层面上,OpenAI 还提出 Codex 的出现或许会冲击程序员的就业,如果被滥用,还有网络犯罪方面的隐患。

最后还有一点,就是环境方面的问题。

毕竟它作为大模型,参数量的规模不容小觑。

要不是合作方微软 Azure 云买了足够多的碳排放限度,Codex 可能还不能和我们见面呢。

如果想要试玩的话,OpenAI 还准备了一个 Python 编程大赛,在这场比赛中 Codex 会作为你的搭档和你一同解题。

比赛将于北京时间 8 月 13 日凌晨一点开始,就是这时间对国内不太友好。

大赛报名地址:

热搜:   
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。
OpenAI又上了一个新台阶