据The Information周一的报道,越来越多的初创公司利用OpenAI和其他公司的数据来开发他们的AI聊天机器人。这些机器人在某些任务上表现出色,甚至与GPT-4媲美,但价格却只是后者的一小部分。
初创公司在开发过程中往往不会公开披露他们使用了OpenAI的技术。然而,据报道,去年夏天,OpenAI首席执行官Sam Altman曾告诉一些初创公司创始人,可以接受他们使用OpenAI技术的方式。
虽然Altman的回应让一些初创公司感到宽慰,但这种做法实际上可能会损害OpenAI的增长,并且Altman随时可能改变主意。
在初创公司中,抄袭已经成为一种常态。这些公司通常会先购买GPT-4的会员资格,然后向其提出一系列问题,然后使用这些问题和答案来训练自己的竞争模型。据估计,大约一半的初创公司从GPT-4或Anthropic的Claude模型中获取数据,并用于改进自己的模型。而一些开发者也从ShareGPT等网站获取类似数据。
此外,一些小型开发商还利用Meta Platforms或Mistral AI等公司免费提供的开源模型,然后通过融合OpenAI模型的答案来提高模型输出内容的质量。
AI模型的训练数据质量和来源正在成为一个重要的问题。尽管没有人确切知道未来会如何发展,但那些没有对数据来源进行周密和战略考虑的AI初创公司很可能会落后。如果这些使用其他AI服务数据训练模型的开发商被曝光,他们可能会面临尴尬的处境。
不仅是初创公司,实际上,一些大公司也存在类似的行为。例如,OpenAI被曝出在训练模型时使用了YouTube的数据,这导致了侵权官司。即使是科技巨头也难以抗拒捷径的诱惑,例如谷歌曾转录YouTube视频,Meta雇佣承包商总结受版权保护的书籍,Adobe使用AI生成照片等。
在这个快速发展且竞争激烈的领域,投资者希望看到非常快的进展,这也促使开发者求助于一些有争议的训练数据来源。
コメント