天元律师事务所

1、OpenAI、谷歌回收“废旧”视频，以训练AI模型

据彭博社今日报道，目前有许多 YouTuber 和其他数字内容创作者正在将未发布的视频素材出售给人工智能公司，以帮助它们训练AI算法，这些创作者每笔交易往往能赚取数千美元。

根据知情人士透露，OpenAI、谷歌、AI媒体公司 Moonvalley等正在向数百名内容创作者支付费用，以获取他们未发布的视频素材。由于这些素材没有在网上公开发布，因此它们对训练人工智能算法具有很高的价值，因为它们具有唯一性。

目前，人工智能公司为每分钟视频支付的价格在1至4美元之间，具体价格会根据视频的质量和格式有所不同。比如，4K视频和无人机拍摄或3D动画等特殊格式的视频通常售价更高。而大多数普通视频，如为YouTube、Instagram和TikTok制作的未使用素材，每分钟的价格大约在1到2美元之间。(来源：IT之家)

评论：今年8月，研究公司Epoch AI发布报告，预测到2028年，互联网上所有高质量的文本数据将被使用殆尽。在互联网高质量数据日益枯竭的同时，AI 公司对数据的需求却持续攀升，这迫使它们不得不另辟蹊径，寻找其他数据来源。目前，OpenAI、谷歌等公司购买未发布视频素材的做法，便是在这种形势下作出的尝试。然而，这种模式存在一定的脆弱性。一方面，创作者手中未发布数据的数量相对有限，以一个小型视频创作者为例，其手中未发布的素材可能仅有几十条，对于大型AI公司动辄需要数百万甚至数亿量级的数据样本来说，只是杯水车薪；另一方面，逐一获取授权不仅意味着高昂的经济成本，还需耗费大量时间进行谈判、签约。随着数据资源稀缺性的加剧，AI公司突破现有版权限制的压力可能会越来越大，这极有可能引发更多版权纠纷。因此，法律需要在充分保护版权所有者权益的基础上，为AI技术的发展预留合理空间。例如，制定更为明确的合理使用规则，建立高效的数据共享机制等，以此实现版权保护与技术发展的双赢局面。

2、美国公布最新AI芯片禁令英伟达与甲骨文实名反对

1月14日，美国政府宣布推出美国制造AI芯片管制新规，旨在对美国制造的AI GPU(图形处理器，主要用于AI大模型的训练及推理)芯片实施严格的全球出口限制。

据美国全国广播公司(NBC)披露，根据管制新规，美国将对各个国家及地区，根据其部署的芯片计算能力被划分为三个等级，不同等级适用不同的销售限制。第一等级包括美国的主要盟友，如德国、荷兰、日本、韩国和新加坡、印度等18个国家和地区。这些国家几乎不受限制地使用美国厂商生产的AI芯片，并可以在其境内自由部署算力。第二等级则包括除第一梯队外的绝大多数国家，这些国家将面临总算力限制，每个国家在2025年至2027年期间最多可获得约50000个AI GPU。第三等级主要是中国、俄罗斯、伊朗等被美国实施武器禁运的国家及地区。这些国家将受到最严格的限制，几乎全面禁止进口美国厂商生产的AI GPU芯片。

美国总统国家安全事务助理沙利文称，“美国必须为未来几年人工智能算力的快速提升做好准备，这可能会对我们国家的经济和安全产生变革性影响。”（来源：中国新闻网）

3、美国首次将中国大模型公司列实体清单，智谱回应

当地时间1月15日，美国商务部工业安全局（BIS）分两批增加了25个中国实体，涵盖了多个领域，其中包括中国大模型初创公司北京智谱华章科技有限公司及其子公司，这也是美国首次将中国大模型公司列入实体清单。

据悉，包括智谱AI旗下的10个实体、AI芯片设计企业算能旗下的约11个实体（含一家新加坡分公司），以及哈勃投资的光刻机企业北京科益虹源光电技术有限公司等，本次均被列入实体名单。

美国商务部工业安全局声称，上述实体名单中10个实体通过开发和整合先进的人工智能研究“推动了中国的军事现代化”；1个实体参与中国先进节点光刻技术制造设备的开发，该技术将使中国“生产用于军事终端的先进集成电路。”

对此，15日当天，智谱发布声明称关注到美国商务部工业和安全局拟将智谱及子公司增列至出口管制实体清单。这一决定缺乏事实依据，对此表示强烈反对。智谱表示，鉴于公司掌握了全链路大模型核心技术的事实，被列入实体清单不会对公司业务产生实质影响。（来源：观察者网）

评论：美国公布的AI芯片禁令，以所谓的“国家安全”为由，在贸易管制方面采取不合理的差别化待遇。其划分的三个等级缺乏国际公认的法律依据，尤其是对中国等国家实施近乎全面的禁运，严重违背了国际贸易中的非歧视原则和公平竞争原则。而将中国大模型公司列入实体清单，美国商务部工业安全局给出的理由毫无事实根据，属于肆意滥用出口管制措施。在当前中美技术竞争的背景下，美国对中国企业采取措施的可能性会越来越高，中国AI企业应该提前做好准备及应对，例如加强自主创新能力，确保技术自主可控，拓展多元化市场，加强与“一带一路”国家的技术合作等。只有像智谱这样掌握核心技术，才能在面对不合法的制裁措施时更有底气。中国AI企业应坚定信心，从技术、市场、人才、舆论等多维度发力，以坚定的决心和创新的举措，在全球AI产业竞争中稳步前行，实现可持续发展。

4、扎克伯格知晓Meta使用盗版数据库训练AI

2023年7月7日，三名美国作家起诉OpenAI的ChatGPT和Meta的LLaMA，主张其侵犯了他们的版权。原告称，他们不同意将受版权保护的书籍用作两家公司AI模型的培训材料。近日，本案诉讼进展迎来了新局面。包括作家塔哈什科茨和萨拉西尔弗曼在内的原告团向加州联邦法院提交的材料显示，首席执行官马克扎克伯格知道这一事实。作家们提供了一份新的内部文件，显示该公司使用了名为“LibGen”的盗版数据集。Meta方面主张合理使用，但法官对部分主张的正当性表示怀疑。该诉讼被认为是AI开发版权问题的重要案例，类似的诉讼也可能波及其他领域。（来源：科技法珠玑）

评论：本案是使用开源数据集进行AI训练而引发的一系列诉讼案件之一。此前，2023年9月，美国作家协会携《冰与火之歌》作者乔治马丁等17名作家在美国纽约南区法院对OpenAI发起集体诉讼，指控OpenAI使用的书籍语料库“Books2”是由从大型盗版图书库下载的电子书文件组成（如“LibGen”）；2024年3月，美国作家Brian Keene等联合控诉英伟达使用他们的原创书籍作品作为其人工智能生成平台NeMo的原始训练数据，其主张英伟达使用了“The Piles”数据集，包括众多盗版书籍内容。

这些诉讼表明，对于AI开发者来说开源数据集看上去很美，但是可能蕴含很高的法律风险。在使用开源数据集前，我们建议开发者应采取如下措施及步骤进行合规管理：

审查开源数据集的开源协议。AI开发者首先需明确开源协议的各项条款，不同的开源协议对使用、修改、分发等方面有着不同的规定，开发者在选用数据集前，务必要仔细研读其开源协议，确保自身的使用方式完全符合要求。
要对数据集的来源进行深度审查。开发者不能仅仅因为数据集标注为“开源”就盲目使用，需追溯其源头，确认数据的采集、整理过程是否合法合规。对于来源不明或者存在侵权嫌疑的数据集，即便其具有极大的吸引力，也应坚决摒弃。就像上述案例中涉及的“LibGen”“Books2”“The Piles”等数据集，均因包含盗版内容而引发了严重的法律纠纷。

相关领域: 高科技与人工智能