整理:郑丽媛
制作人:
上个月,学而思透露,目前正在开发自己的数学模型MathGPT,面向全球数学爱好者和科研机构,围绕数学领域的问题求解和问题求解算法而构建。
当时很多人都觉得“理科生”版的ChatGPT终于要来了。
不曾想,关于MathGPT的“丑闻”还没真正出来就爆发了:本周二,笔神作文App指控薛思思通过“爬虫”技术非法访问缓存其服务器数据高达258万次,以此开发MathGPT的新产品“作文AI助手”。
六年成就,一个周末被爬了200多万次。
本次活动的主角之一毕神作文,是一家成立于2017年12月的K12(从幼儿园到12年级的教育)作文教育平台,隶属于北京一笔梁华科技有限公司
那时候的AI市场远没有现在这么火爆。笔神作文凭借“利用人工智能技术帮助作家提升写作能力”的特点,于2018年1月获得真格基金数百万种子轮融资,后于2019年7月完成数百万天使轮融资。
官方数据显示,毕神网文六年,每个月收到30多万篇作文投稿和40多万条赞评,积累了上百万篇作文素材,每个月批改3万多篇作文。
随着去年底ChatGPT的horizontal 空的诞生,笔神作文的投资人之一田弘曾表示,“笔神”和ChatGPT技术是一脉相承的,都采用了基于Transformer的最新算法作为AI模型的底层。碧神作文创始人宋佳伟曾表示:“目前团队60%以上是技术研发人员。在公司成立之前,团队已经创办了NLP公司,部分骨干已经在自然语言理解领域合作耕耘多年。”
所以总体来说,毕神作文的算法模型是二冲程公司的自研训练,其平台的大数据来自于自身的积累。
因为在写作方面的技术积累和显著成绩,笔神作文与学而思在三年前达成合作:与学而思旗下的学习工具App“话题拍拍”签约,主要负责提供作文素材的查询服务。
作为搭档,本周的毕神作文说:4月13日,发生了一件我们没想到的事。我们团队创业六年来的成绩,仅仅一个周末就被爬了两百多万次!
诉求:1元赔偿,公开道歉,删除数据。
从笔神官方微博的声明来看,其并不具备完整的数据安全机制,也不具备对“伙伴”的所有防范措施,导致三体连云公司(学而思的子公司)利用这种信任,即在未经笔神作文APP授权的情况下,于2023年4月13日至4月17日通过“爬虫”技术非法访问并缓存钢笔。
对此,毕申作文主张,该行为违反了双方合同条款,甚至违反了《数据保护* *》第三十二条“任何组织或者个人应当以合法、正当的方式收集数据,不得窃取或者以其他非法方式获取数据”,严重侵害了毕申作文APP的数据权益。
事后,笔神的作文经过学习和思考得到验证,对方直接承认他们算法组在爬取数据,为己所用。所以笔神作文发了律师函,但是没有得到对方实质性的回复。此时,有学习有思考的大AI模型MathGPT即将推出新产品“作文AI助手”。
“作为一家比‘学而思’小很多的公司,我们别无选择,只能通过法律途径维护自己的权益。”不过,毕申作文也在声明中指出,目前的法律法规对于【AI大模型数据窃取】的判决没有先例,所以只能“勇敢迈出这第一步”。
至于笔神写作的诉求,其实并不是要求大量赔偿:我只是想学习和思考支付1元赔偿,公开道歉,删除抓取的数据。
对此,毕申解释道:“数据是有价值的,但我们的心血更是无价的。我们要求赔偿1元,是因为公平正义不能用金钱来衡量。我们希望通过诉讼告诉社会,这种行为是错误的。人工智能行业的发展靠的是共同创造,而不是窃取和抄袭别人的成果。”
确实不大,所以这个说法没有引起太多关注,只有少数评论谴责学而思的行为。
学而思回应:全部符合合同要求。
经过多家媒体报道,这一事件逐渐发酵,于是昨晚学习思考的官方微博也对此进行了回应:
首先,MathGPT是专注于数学领域的自研模型,没有任何与作文相关的数据;其次,“作文AI助手”目前正在开发中,尚未发布。该服务不使用任何手写数据。
在毕申作文声称数据已被抓取超过两百万次的同时,学而思指出,合同中明确写明“每月保障费用中包含的调用次数在百万次量级”,其调用接口“属于合同中双方约定的正常合作范围”。
在回应的最后,学而思强调其“始终尊重知识产权,重视知识产权保护”,所有行为均严格按照合同履行,但:“毕神成分的公开声明对学而思的品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”
人工智能训练数据的版权
从目前双方给出的说法来看,这场纠纷并不能给出一个最终的结论,但也暴露了一个容易被忽视但却非常重要的盲点:最近日益火热的AI模型竞赛下的AI训练数据的版权问题。
其实也是因为这个原因,最近在外网闹得沸沸扬扬的“美国贴吧”Reddit才决定强制API收费。
近年来,Reddit上发布的聊天内容已经成为谷歌、OpenAI和微软等公司训练AI模型开发ChatGPT等生成式AI产品的素材。随着此类AI工具的流行,Reddit的创始人兼首席执行官表示:“Reddit的数据语料库非常有价值,但我们不想将这些内容免费提供给一些巨头公司。”
在Reddit率先要求科技巨头为使用数据付费后,知名it问答网站Stack Overflow也宣布了从今年年中开始向大型AI开发者收取数据访问费的计划。其CEO也指出:“社区平台促进了LLM的发展,其贡献也必须得到补偿。”
除了Reddit、Stack Overflow等大型网站,甚至在开发者圈子里,也有程序员因为Copilot涉嫌侵犯代码版权而宣布放弃GitHub:
毫无疑问,在AI大模型变得更加智能的过程中,大量的训练数据必不可少,但从目前来看,AI领域的“当红炸子鸡”OpenAI并没有很好的解决训练数据的版权问题。
但随着AI热潮的进一步推进,这个问题势必会得到解决。正如北京大学计算机学院教授陈忠所说:“也许在研发初期,人们并不关心数据来源,但当你已经产生了巨大的经济利益时,传统的经济模式和法律制度就会约束你的行为。”
那么,你对这个问题有什么看法吗?
参考链接:
https://weibo.com/combmobile
https://weibo.com/5308312222/4912235782345634? WM = 3333 _ 2001 & amp;from = 10D6093010 & ampweixin & amps _ trans = 3830025800 _ 4912235782345634。s_channel=4
https://www.36kr.com/p/1723938652161
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
原文地址"6 年成果,被爬取 200+ 万次,仅索赔 1 元?AI 大模型被指控“偷”数据,学而思最新回应":http://www.ljycsb.cn/qukuailian/214702.html。

微信扫描二维码投放广告
▲长按图片识别二维码