14万笔AI语料惹的祸?中央社告台大生,台湾AI训练的困境谁来解?
14万笔AI语料惹的祸?中央社告台大生,台湾AI训练的困境谁来解?
最近,一则新闻炸开了锅,看得我心里五味杂陈。中央社,这个台湾的官方通讯社,竟然把一位分享繁体中文资料集的台大博士生给告了!理由是这位博士生整理的资料集中,包含了未经授权的中央社新闻内容,数量高达14万笔。
这件事瞬间引爆了网路,各种声音都有。有人觉得中央社小题大作,不该告这些默默为台湾AI发展付出努力的年轻人;也有人认为,著作权确实应该被保护,就算是非营利目的的AI训练,也该取得授权。
作为一个对AI略有了解,也曾经尝试过训练一些小模型的普通人,我真的太能理解这位博士生的处境了。
我亲身的经历:想为AI贡献,却发现寸步难行
去年,我突发奇想,想用一些台湾特色的网路用语训练一个小型的聊天机器人,让它更“接地气”,能讲一些只有台湾人才懂的“梗”。理想很丰满,现实却很骨感。
我开始在网路上搜寻各种公开的资料,像是PTT论坛的讨论串、新闻留言、部落格文章等等。但是很快我就发现,这些看似唾手可得的资料,其实都存在著著作权问题。
很多新闻报导,就算是网路版,也明确标示了“禁止转载”。PTT上的文章,虽然是公开的,但如果要大规模使用,仍然存在著著作权的灰色地带。更别提那些部落格文章,很多都是作者的心血结晶,未经同意直接拿来用,实在说不过去。
为了避免惹上麻烦,我只能放弃了大规模爬取资料的想法,改成手动整理。我一条一条地复制、贴上,然后仔细校对、清洗。那段时间,我每天埋头苦干,眼睛都快瞎了,结果也只整理出几千条“像样”的资料。
训练出来的模型效果可想而知,只能勉强说几句“台湾味”的问候语,距离我理想中的“接地气”聊天机器人,简直是天差地别。
我的感受与想法:台湾AI的未来,不能被版权问题绑住
这件事让我深刻体会到,在台湾发展AI,尤其是在繁体中文领域,真的太难了!
资料量少,而且有版权风险: 相比于简体中文,繁体中文的资料量本来就少。加上对著作权的重视,很多可以用的资料都受到了限制。
缺乏明确的规范和指引: 目前台湾对于AI训练资料的著作权问题,还没有一个明确的规范和指引。这让很多想要投入AI研究的人,都感到徬徨和不安。
创新和权益保护之间的平衡: 如何在鼓励创新和保护著作权之间取得平衡,是一个非常棘手的问题。如果过度强调著作权保护,可能会扼杀台湾AI的发展;但如果完全忽视著作权,又会损害内容创作者的权益。
这次中央社提告台大生的事件,更加凸显了这些问题的严重性。
我认为,中央社的行动,虽然在法律上可能站得住脚,但在情理上却难以让人接受。作为一个官方媒体,中央社更应该思考如何为台湾的AI发展做出贡献,而不是只盯著这些“小打小闹”的个人研究者。
更何况,真正的问题,其实并不在于这位台大博士生,而在于更上游的资料来源,像是Common Crawl这样的网路爬虫专案。如果真的要追究责任,应该把矛头指向这些源头,而不是只针对下游的资料整理者。
我期望的未来:开放、合作、共赢
我希望未来台湾能够建立一个更加开放、合作、共赢的AI发展环境。
政府应该主导建立一个公益性的繁体中文语料库, 让研究者可以安心使用,不必担心侵权问题。就像数发部正在筹划的台湾主权 AI 训练语料库一样。
建立明确的AI训练资料著作权规范, 让大家知道哪些资料可以安全使用,哪些资料需要取得授权。
鼓励媒体和内容创作者, 参与AI训练资料的授权合作,让他们也能从AI的发展中获益。
只有这样,台湾的AI发展才能摆脱困境,迎来更加光明的未来。否则,我们只能眼睁睁地看著其他国家在AI领域突飞猛进,而我们却只能原地踏步,甚至被远远甩在后面。
说到底,AI的发展需要大家的共同努力,需要开放的心态,更需要政府的积极引导。希望这次的事件,能够成为一个契机,让我们更加重视台湾AI发展所面临的困境,并共同寻找解决方案。毕竟,台湾的未来,也掌握在我们每一个人的手中。