6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应

整理:郑丽媛

制作人:

上个月，学而思透露，目前正在开发自己的数学模型MathGPT，面向全球数学爱好者和科研机构，围绕数学领域的问题求解和问题求解算法而构建。

当时很多人都觉得“理科生”版的ChatGPT终于要来了。

不曾想，关于MathGPT的“丑闻”还没真正出来就爆发了:本周二，笔神作文App指控薛思思通过“爬虫”技术非法访问缓存其服务器数据高达258万次，以此开发MathGPT的新产品“作文AI助手”。

六年成就，一个周末被爬了200多万次。

本次活动的主角之一毕神作文，是一家成立于2017年12月的K12(从幼儿园到12年级的教育)作文教育平台，隶属于北京一笔梁华科技有限公司

那时候的AI市场远没有现在这么火爆。笔神作文凭借“利用人工智能技术帮助作家提升写作能力”的特点，于2018年1月获得真格基金数百万种子轮融资，后于2019年7月完成数百万天使轮融资。

官方数据显示，毕神网文六年，每个月收到30多万篇作文投稿和40多万条赞评，积累了上百万篇作文素材，每个月批改3万多篇作文。

随着去年底ChatGPT的horizontal 空的诞生，笔神作文的投资人之一田弘曾表示，“笔神”和ChatGPT技术是一脉相承的，都采用了基于Transformer的最新算法作为AI模型的底层。碧神作文创始人宋佳伟曾表示:“目前团队60%以上是技术研发人员。在公司成立之前，团队已经创办了NLP公司，部分骨干已经在自然语言理解领域合作耕耘多年。”

所以总体来说，毕神作文的算法模型是二冲程公司的自研训练，其平台的大数据来自于自身的积累。

因为在写作方面的技术积累和显著成绩，笔神作文与学而思在三年前达成合作:与学而思旗下的学习工具App“话题拍拍”签约，主要负责提供作文素材的查询服务。

作为搭档，本周的毕神作文说:4月13日，发生了一件我们没想到的事。我们团队创业六年来的成绩，仅仅一个周末就被爬了两百多万次！

诉求:1元赔偿，公开道歉，删除数据。

从笔神官方微博的声明来看，其并不具备完整的数据安全机制，也不具备对“伙伴”的所有防范措施，导致三体连云公司(学而思的子公司)利用这种信任，即在未经笔神作文APP授权的情况下，于2023年4月13日至4月17日通过“爬虫”技术非法访问并缓存钢笔。

对此，毕申作文主张，该行为违反了双方合同条款，甚至违反了《数据保护* *》第三十二条“任何组织或者个人应当以合法、正当的方式收集数据，不得窃取或者以其他非法方式获取数据”，严重侵害了毕申作文APP的数据权益。

事后，笔神的作文经过学习和思考得到验证，对方直接承认他们算法组在爬取数据，为己所用。所以笔神作文发了律师函，但是没有得到对方实质性的回复。此时，有学习有思考的大AI模型MathGPT即将推出新产品“作文AI助手”。

“作为一家比‘学而思’小很多的公司，我们别无选择，只能通过法律途径维护自己的权益。”不过，毕申作文也在声明中指出，目前的法律法规对于【AI大模型数据窃取】的判决没有先例，所以只能“勇敢迈出这第一步”。

至于笔神写作的诉求，其实并不是要求大量赔偿:我只是想学习和思考支付1元赔偿，公开道歉，删除抓取的数据。

对此，毕申解释道:“数据是有价值的，但我们的心血更是无价的。我们要求赔偿1元，是因为公平正义不能用金钱来衡量。我们希望通过诉讼告诉社会，这种行为是错误的。人工智能行业的发展靠的是共同创造，而不是窃取和抄袭别人的成果。”

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应确实不大，所以这个说法没有引起太多关注，只有少数评论谴责学而思的行为。

学而思回应:全部符合合同要求。

经过多家媒体报道，这一事件逐渐发酵，于是昨晚学习思考的官方微博也对此进行了回应:

首先，MathGPT是专注于数学领域的自研模型，没有任何与作文相关的数据；其次，“作文AI助手”目前正在开发中，尚未发布。该服务不使用任何手写数据。

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应在毕申作文声称数据已被抓取超过两百万次的同时，学而思指出，合同中明确写明“每月保障费用中包含的调用次数在百万次量级”，其调用接口“属于合同中双方约定的正常合作范围”。

在回应的最后，学而思强调其“始终尊重知识产权，重视知识产权保护”，所有行为均严格按照合同履行，但:“毕神成分的公开声明对学而思的品牌声誉造成了伤害，我们将保留追究其名誉侵权责任的权利。”

人工智能训练数据的版权

从目前双方给出的说法来看，这场纠纷并不能给出一个最终的结论，但也暴露了一个容易被忽视但却非常重要的盲点:最近日益火热的AI模型竞赛下的AI训练数据的版权问题。

其实也是因为这个原因，最近在外网闹得沸沸扬扬的“美国贴吧”Reddit才决定强制API收费。

近年来，Reddit上发布的聊天内容已经成为谷歌、OpenAI和微软等公司训练AI模型开发ChatGPT等生成式AI产品的素材。随着此类AI工具的流行，Reddit的创始人兼首席执行官表示:“Reddit的数据语料库非常有价值，但我们不想将这些内容免费提供给一些巨头公司。”

在Reddit率先要求科技巨头为使用数据付费后，知名it问答网站Stack Overflow也宣布了从今年年中开始向大型AI开发者收取数据访问费的计划。其CEO也指出:“社区平台促进了LLM的发展，其贡献也必须得到补偿。”

除了Reddit、Stack Overflow等大型网站，甚至在开发者圈子里，也有程序员因为Copilot涉嫌侵犯代码版权而宣布放弃GitHub:

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应毫无疑问，在AI大模型变得更加智能的过程中，大量的训练数据必不可少，但从目前来看，AI领域的“当红炸子鸡”OpenAI并没有很好的解决训练数据的版权问题。

但随着AI热潮的进一步推进，这个问题势必会得到解决。正如北京大学计算机学院教授陈忠所说:“也许在研发初期，人们并不关心数据来源，但当你已经产生了巨大的经济利益时，传统的经济模式和法律制度就会约束你的行为。”

那么，你对这个问题有什么看法吗？

参考链接:

https://weibo.com/combmobile

https://weibo.com/5308312222/4912235782345634? WM = 3333 _ 2001 & amp；from = 10D6093010 & ampweixin & amps _ trans = 3830025800 _ 4912235782345634。s_channel=4

https://www.36kr.com/p/1723938652161

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信，我们会及时处理和回复。

原文地址"6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应"：http://www.ljycsb.cn/qukuailian/214702.html。

微信扫描二维码投放广告
▲长按图片识别二维码

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应

栏目最新

栏目推荐

贷款平台