编译/黄竣凯

加州大学柏克莱分校的一位人工智慧(AI)专家兼教授Stuart Russell表示,ChatGPT 和其他AI驱动的机器人可能很快就会「没有文本」可以进行训练。Russell 认为,透过收集大量文本训练的ChatGPT 等AI机器人将「开始遇到障碍」。

Russell 认为,透过收集大量文本训练的ChatGPT 等AI机器人将「开始遇到障碍」。 (示意图/123RF)

据外媒报导,Russell不是唯一这样想的人。AI研究人员小组 Epoch 进行的一项研究也估计,机器学习所需的「高品质的语言数据」可能会在 2026 年之前耗尽,包括来自书籍、新闻文章、科学论文、维基百科和过滤的网路内容等。

随着AI开始取代文字工作者,Russell指出,这将改变生成式AI研究人员获取数据和训练系统的方式。他说:「随着AI取带语言输入和输出的工作,当我们用完文本时,我们将不得不寻找新的方法训练AI。」

Russell 表示,ChatGPT 背後的公司 OpenAI 似乎就因为没有足够的「高品质公共数据」,而从其他来源购买了文本数据集。虽然OpenAI尚未详细说明 GPT-4 的确切训练数据集,但该公司表示,其至今为止最强大、最先进的人工智能模型 GPT-4是用「私人档案源」补充训练成的。

随着AI不断进步,人们也开始注意ChatGPT 和其他聊天机器人的训练数据来源。很多艺术家、作家就担心,他们的作品会在未经他们同意的情况下被复制。许多社群媒体的高层也纷纷对他们平台数据被随意使用表示不满。 在过去几周内就有几起针对 OpenAI 提起的诉讼,指控该公司使用包含个人数据和受版权保护资料来训练 ChatGPT,包括私人对话和医疗记录等敏感数据。

参考资料:Insider、Wonderful Engineering

※更多ChatGPT相关讯息,请参考【生成式AI创新学院】。