这篇文章报导了一个由 IMA 资讯经理人协会发起的「Taiwan Tongues 台湾通用语料库」计划,旨在解决全球 AI 模型对台湾语言和文化理解不足的问题。以下是对文章重点的总结和分析:
这篇文章报导了一个由 IMA 资讯经理人协会发起的「Taiwan Tongues 台湾通用语料库」计划,旨在解决全球 AI 模型对台湾语言和文化理解不足的问题。以下是对文章重点的总结和分析:
核心问题:
AI 模型语料库偏差: 目前主流 AI 模型主要基于英文、简体中文等资料训练,导致它们对台湾华语、台语、客语和原住民族语的理解能力不足,进而影响 AI 对台湾文化和历史的认知。
语料取得不平衡: 台湾本土语料因版权问题难以取得,而中国相对宽松的知识产权环境使其更容易获得语料,造成 AI 模型训练上的偏差。
Taiwan Tongues 计划目标:
建立台湾通用语料库: 收集和整理台湾华语、台语、客语和原住民族语的语料,让 AI 模型能够学习和理解这些语言。
提升 AI 对台湾文化的理解: 通过将台湾语言纳入 AI 模型训练,让 AI 能够更准确地理解台湾的文化、历史和价值观。
推动数位平权和语言文化自主: 增加台湾语言在网路世界的能见度,让台湾语言和文化在数位时代得以保存和发展。
打造台湾主权 AI: 强化政府与民间在语料开放、模型建构及应用评测上的合作,建立属于台湾的 AI 模型。
具体措施:
扩大台湾语料库: 透过作家授权等方式,收集大量高品质的台湾语言语料,并上架 Hugging Face 平台供非商业用途使用。
模型训练和评估: 结合教育部台语辞典等公用语料库,对模型进行持续预训练和监督式微调,并设计专属测试集进行模型评估。
政府支持: 数发部将开放政府掌握的语料,供 Taiwan Tongues 计划及其他民间单位使用。
技术合作: 群联电子提供技术支援,整合 Reward Model 及 RL 微调技术,开发在地化 AI 训练框架。
启动 Wiki Taiwan 专案: 扩增台湾语言在维基百科的内容,包括补齐繁体中文条目和翻译繁体中文条目成台语。
月入百万字接力翻译计划: 将维基百科的繁体中文条目翻译成台语内容,并翻译英文条目。
主要参与者:
IMA 资讯经理人协会: 发起和组织该计划。
胡长松: 台语文学作家,担任 Taiwan Tongues 计划执行委员会主委,无偿释出个人作品。
廖元甫: 阳明交通大学教授,负责模型训练和评估。
林宜敬: 数位发展部次长,代表政府支持该计划。
群联电子: 提供技术支援,协助开发在地化 AI 训练框架。
总结:
「Taiwan Tongues 台湾通用语料库」计划是一个具有重要意义的倡议,它不仅有助于提升 AI 模型对台湾语言和文化的理解,更能促进数位平权和语言文化自主,最终目标是建立属于台湾的 AI 生态系统。该计划整合了政府、学术界、产业和民间力量,展现了台湾在 AI 发展上的积极性和独特性。
分析:
解决实际问题: 该计划针对目前 AI 模型对台湾语言和文化理解不足的具体问题,提出了明确的解决方案。
多方合作: 整合政府、学术界、产业和民间力量,有助于资源整合和计划的顺利推进。
开放共享: 将语料库开放给各界使用,有助于促进 AI 研究和应用发展。
长远目标: 致力于建立台湾主权 AI,体现了台湾在 AI 发展上的战略考量。
总体而言,这是一个具有前瞻性和实践性的计划,有望在台湾的 AI 发展中发挥重要作用。