1、AI视频陷入“阳澄湖水洗大闸蟹”争议
近日,一场“全球AI电影马拉松大赛”上,一个名叫《汪洋战争》的入围AI短片因为在人物、场景、机械、风格等众多设定上都和《沙丘》相似而引发争议。
6月11日,知名产品经理纯银发布微博称,“文生视频现在有个很不好的风气,专业人士实拍视频,然后用AI转风格,把实拍视频转为AI视频,确保视频表达的精确与连贯。效果看起来很炸,跟传统视频可以掰手腕……不,这就是传统视频过了一遍AI滤镜。这样的视频最近参赛,拿奖,失德。昨天跟朋友聊天时说,这不就是阳澄湖水洗大闸蟹嘛。”对此,娱乐资本论等自媒体在报道引用时介绍“类似大赛都有商业化背景,版权争议如影随形,就有人表示‘现在很多作品都是用AI把其他成熟电影剪碎了再拼上’,可以说借创意、‘扒’分镜,逐帧转AI特效,都是AI圈已经普遍流传的做法。”(来源:微博、娱乐资本论)
评论:目前多数AI工具均提供图生图转绘或视频转绘功能,这种功能既方便了原创作者,也方便了侵权人进行“洗稿”“抄袭”,但对于AI转绘是否构成著作权侵权,目前实践态度却并不一致。这是因为在AI工具中,用户可以设置转绘的相似度,以展现出不同风格。以知名的AI绘画工具Midjourney举例,用户可以在0-3之间设置相似度,数值越大代表相似度越高。对此,我们用转绘功能生成了一组图片,可以明显的看到不同相似度设置后生成内容的区别。相似度为0.1生成的图像仅保留了相似的摄影风格及特写画面,但人物诸多细节均有很大变化,而相似度3.0的图像则基本上保留了原有构图及人物主体特征,仅人物角度不同。因此,在著作权法视野下,后者图像擅自使用原作品的核心要素,进行了实质性的修改或再创作,其作品并未脱离原作的基本框架和创意实质,依赖于原告作品的核心创意和表达,构成了对原作品改编权的侵犯。但前者图像则更像是一种美术风格的学习或借鉴,更有可能被认定并非简单的复制或变形,而是融入了新的创意元素和个性化的解读,体现了独立的智力创作,可能不被视为对原作的改编。但具体如何把握,目前仍未有相关先例。考虑到行业实践中这种所谓“转绘”事件越来越多,我们希望人民法院可以尽快在个案中给予解答。
2、MCN机构利用AI造谣,一天写7000篇
据央视新闻近日报道,今年1月,某网络平台出现一条关于“西安爆炸”的消息称,称1月10日晚,西安突然响起巨大爆炸声,还配有所谓爆炸的图片。消息一经发布,很快在网上传播及热议。但经当地民警核实,当地没有发生类似事件,初步判定该MCN机构发布的数条信息涉嫌网络造谣,属不实信息。警方对MCN机构及控制人王某调查后发现,该谣言是利用AI软件生成新闻热点类文章和图片,全程基本不需要人工参与。王某某通过AI软件,给出关键词,软件便会自动在网络上抓取相关信息,生成内容文本,配上虚假图片,形成一段实际上子虚乌有的内容。这家MCN机构据此最高峰一天能生成4000至7000篇,最高的一条收入700元,初步估算每天的收入在1万元以上。 经警方调查,王某某共经营5家MCN机构,运营账号842个,王某某的行为构成传播谣言,虚构事实,扰乱公共秩序,南昌警方依据相关规定,依法对王某某处以行政拘留5日,责令涉案MCN机构停业整改。(来源:央视新闻)
评论:AI工具提升了内容生产效率的同时,也为黑灰产提供了更便利的工具,让虚假信息问题、恶意内容问题、网络欺诈问题等更加严重,很多评论认为AI将会把互联网变成内容垃圾场。虽然学界还在讨论相关合规措施,但AI网络服务提供者需要解决的是当下的现实问题,对AI生成内容的管控势在必行。我们欣喜的注意到,包括抖音、小红书国内很多内容平台早在去年就在关注相关AI生成内容的合规措施,他们的相关管理措施对其他平台具有较高借鉴及参考意义,相关平台可以从如下方面入手:
- 更新用户协议,要求发布者发布AI生成内容进行显著标识,对后果负责,不得生成发布侵权内容,不得生成发布违背科学常识、弄虚作假、造谣传谣的内容等。
- 运用技术手段,AI生成的内容可能具有特定的模式和特征,例如文本中的重复模式、图像中的不自然噪点或视频中的异常帧率。通过分析这些特征,可以识别出内容是否由AI生成。
- 行为分析,AI生成内容的过程可能伴随着特定的行为模式,例如短时间内生成大量内容,或者内容生成的模式不符合人类创作习惯。
- 投诉举报,设置AI生成内容的投诉举报渠道,必要时进行人工审核及处理。
3、北京人工智能数据运营平台发布,并开源超大规模高质量数据集
6月14日,AI行业顶级盛会2024北京智源大会正式拉开帷幕。作为大会的重要组成部分,智源大会“人工智能+数据新基建”论坛同步召开。本论坛由北京智源人工智能研究院主办,中国互联网协会人工智能工委会和中国移动研究院承办。大会现场发布了“北京人工智能数据运营平台”(包括平台上线、重磅数据集开源和数据工具FlagData3.0),并启动了“行业数据集—场景应用创新计划”。(来源:环球时报)
评论:训练数据来源问题一直是困扰AI模型发展的核心问题之一。学术界、司法界始终在探讨平衡权利人与AI技术开发者的最佳解决方案。此前,张平教授就在提出的解决思路,包括:(1)引入类似合理使用原则、避风港机制;(2)通过集体管理组织解决授权难题;(3)利用开放授权的数据资源。无论是合理使用还是集体管理,可能都很难在短期内建设完成并起到作用。目前来看,更加切合行业实践的还是各类开源数据集,例如在语言模型中可以使用智源研究院发布的数据集IndustryCorpus1.0或Common Crawl经典数据集,如果是视频模型,则可以使用YouTube-8M或LAION-5B的数据集。但还是需要提示的是,开源数据不代表免费无限制的使用,开发者仍需要特别关注数据集所使用的开源协议,遵循协议的相关要求。例如,智源研究院此次的模型使用的是自行设立的开源协议,其3.2条规定授权用户个人的、有限的、非排他性的、非商业的、仅限于中华人民共和国境内(为避免歧义,不包含香港、澳门和台湾)的、可随时终止的和不可再分发的许可。如为商业使用还需获得智源研究院的特别许可,否则依然可能构成著作权侵权,如果开发者没有取得许可甚至已经预训练完成,将可能引发无法弥补的巨大损失。
4、英伟达Nemotron-4 340B,98%合成数据训练指令模型
6月15日,英伟达全新发布的开源模型Nemotron-4 340B,Nemotron-4 340B是一个包含基础模型、指令模型和奖励模型的完整流程,支持多种自然语言和编程语言。它在多个基准测试中超越了其他大模型,并且在合成数据生成方面具有显著优势。该模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。值得一提的是,指令模型的训练是在98%的合成数据上完成的。该模型的开发减少了对外部真实世界数据集的依赖,合成数据的使用提高了数据质量,对各行业定制大语言模型的性能和稳定性有所提升。(来源:新智元)
5、Epoch AI发文预测LLM到2028年耗尽所有文本数据
近期,Epoch AI发布名为《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》的论文,该论文预测,按照当前大型语言模型(LLM)的发展速度,到2028年可能会耗尽互联网上所有可用的人类生成的文本数据。论文尝试估计了互联网上现有的文本数据存量,并考虑了不同来源的数据,包括Common Crawl、索引网络、整个网络的数据量,分析了历史上LLM使用的训练数据集大小,并预测了未来数据集大小的增长趋势。论文指出,如果数据增长速度跟不上模型的需求,那么数据将成为限制LLM扩展的主要瓶颈,形成所谓的“数据墙”。尽管面临数据耗尽的挑战,但论文也提出了可能的解决方案,包括AI生成数据和多模态及迁移学习等策略。(来源:新智元)
评论:高质量数据是大模型技术发展的主要瓶颈之一,此前Epoch AI估算,书籍、科研论文等高质量语言数据集可能会在2024年前耗尽。本次Epoch AI 的估算互联网数据也将在2028年耗尽,这无疑是对现有Scaling law的挑战,需要重新评估数据规模与模型性能正相关的假设。为了应对数据耗尽这一问题,学界提出了使用合成数据、多模态学习与迁移学习等解决方案。而英伟达Nemotron-4 340B的模型的成功,可以证明合成数据可能是一个行之有效的解决方案。
基础大模型训练所需的数据类型包含两大类,一是用于预训练的世界知识,二是用于对齐的数据。合成数据作为真实数据的一种替代,目前主要应用于数据对齐阶段,即将合成数据应用于“从人工智能反馈中进行强化学习(RLAIF)”工作,通常是用一个较大规模模型产出合成数据,生成指令及输入和输出样本,过滤掉无效或重复信息,自动化微调出性能较好的小模型,全过程中几乎无需人类标注。使用合成数据不仅可以提升数据多样性,也能避免隐私问题及安全问题。但是遗憾的是,目前合成数据未被用于大规模替代真实数据进行预训练,研究显示如果在预训练阶段过多引入合成数据,可能会影响训练数据分布,从而导致模型对世界知识的理解产生偏差,我们期待技术上可以有更完善的解决方案,使合成数据可以更广泛的应用。
- 相关领域
- 高科技与人工智能