AI训练的“围城”:台大学生的免费午餐和中央社的版权焦虑

AI训练的“围城”:台大学生的免费午餐和中央社的版权焦虑
最近,台大学一位博士生因为分享了一个繁体中文AI训练数据集,被中央社一纸诉状告上了法庭。这件事像一颗石子投入平静的湖面,激起了关于AI训练数据版权的大讨论,也让我开始思考,在AI浪潮下,版权这根弦,到底应该绷多紧?
这个数据集包含了约14万条来自中央社的新闻内容,而中央社认为,这未经授权的使用,侵犯了他们的版权。消息一出,网上立刻炸开了锅。有人指责中央社小题大做,不该针对博士生,而是应该去找那些大规模爬取数据的源头,比如Common Crawl这样的国际性网络爬虫项目。毕竟,OpenAI、Google这些巨头的AI模型,可都得益于这些数据。
说实话,我一开始也是这么想的。这不就像辛辛苦苦盖了栋房子,结果发现地基里用了几块别人家的砖头,然后你就把房子的使用者告了?逻辑上似乎有点说不通。
但后来想想,好像又不是那么回事。中央社的声明里提到,那些新闻都是记者们辛辛苦苦跑一线,熬夜加班写出来的,字字句句都是心血。这版权,确实应该保护。而且,现在AI训练数据需求量巨大,如果大家都随便拿别人的东西来用,谁还愿意原创内容?
更何况,现在AI训练市场,尤其是繁体中文的数据,那可是香饽饽。为什么?因为少啊!不像英文和简体中文,一大堆现成的资源。繁体中文的数据,不仅量少,还牵扯到版权问题。这就导致,一方面我们希望训练出更懂台湾、更懂我们文化的AI,另一方面,又担心侵犯别人的版权。这真是个两难。
数发部也意识到了这个问题,正在筹备建立台湾主权AI训练语料库,想让大家能更放心地使用繁体中文数据。但这语料库还没影儿呢,这位博士生就撞枪口上了。
其实,这事也反映了AI发展的一个现状:免费午餐不好吃了。以前大家搞AI,觉得数据随便爬一爬就能用,现在版权意识越来越强,这条路怕是走不通了。
我想起以前一个朋友,做自媒体的,辛辛苦苦写了篇文章,结果被人直接抄袭,一字不改地发到了另一个平台。他气得不行,但也只能自认倒霉,维权成本太高了。这次中央社提告,或许也是想给那些肆无忌惮使用他人版权的行为一个警示。
但话说回来,如果中央社真的要告,是不是也应该考虑一下对象的选择?直接告一个学生,是不是有点“杀鸡儆猴”的味道?能不能先跟这位博士生沟通一下,让他把数据下架,或者尝试建立合作关系,授权他使用数据?
我觉得,最好的解决方式,还是各方找到一个平衡点。AI发展需要数据,版权保护也至关重要。我们不能为了追求创新,就牺牲了原创者的利益。但也不能因为害怕侵权,就束缚了AI发展的脚步。
或许,未来的AI训练模式,应该更注重数据来源的合法性和透明度,建立一个更公平、更健康的生态系统。让原创者能够从中受益,让AI开发者能够安心使用数据。这才是我们真正需要的。

Leave a Comment