400-184-6868
400-184-6868
时间:2023-12-11 20:43:42
baet365【作者 】郑飞(法学博士,北京交通大学法学院副院长、副教授);夏晨斌(耀时跨境数据合规研究院研究员,硕士研究生)
【来源】北宝法学期刊库《科技与法律(中英文)》2023年第5期(文末附本期期刊目录)。因篇幅较长,已略去原文注释。
内容提要:ChatGPT和文心一言不仅实现了自然语言处理的多任务、多功能集成式变革,还带来了模型“输入端”学习数据“指数化”和“输出端”内容生成“拟人化”的新趋势。基于此,新一代大规模语言模型“输入端”面临着预训练学习难以纳入合理使用的版权壁垒困境。“输出端”则面临着生成内容不具有可版权性的版权荒漠困境。为顺应生成式AI的技术演进趋势,激励技术创新和智能创作,宜基于“宽进宽出”原则分别从“输入”和“输出”两端调整著作权规制。一是打破封闭式立法的“合理使用”制度架构,构造义务规则下的“选择退出”机制。二是构建“法人视为作者,版权归于法人”—“AI视为作者,版权归于法人”—“AI即为作者,版权归于AI”的渐进式、纵深式版权主体权利归属机制。三是消除“作品”的价值评价维度,构建客观性审查。
目次 一、 新一代大规模语言模型的技术原理与特征 二、 新一代大规模语言模型面临的著作权困境 三、 大规模语言模型“两端”的著作权制度回应
曾有学者预言“AI苏醒,并不存在不可逾越的天花板”。从新一代大规模语言模型(Large Language Model, LLM,以下简称大模型)雨后春笋般的产业态势来看,人类确实大踏步走在“逾越天花板”的路上。Open AI开发的ChatGPT实现了单模态下自然语言处理的多任务高效集成。GPT-4和百度文心一言则突破了单模态限制,实现了大模型对文本、图像、语音、视频等理解生成的多功能集成。新一代大模型在自然语言理解和反馈上展现出革命性进步和极高的处理水准。“ChatGPT+”模式更被认为将在全社会各领域掀起一场智能化浪潮。
热问题还需冷思考。拨开技术迷雾,祛魅智能面纱,才能见新一代大模型真身,探生成式AI法理。ChatGPT和文心一言的出现对于自然语言处理技术(Natural Language Processing, NLP)发展具有里程碑意义。所谓自然语言处理,即机器理解和运用人类语言的过程。17世纪哲学家莱布尼茨在跨语言交流的“摧毁巴别塔”构想中提出了“普遍代数学”和“普遍字符”概念。随后阐述了基于数学、语言学、字符学、密码学的自然语言处理哲学方法。囿于时代限制,这一思想直到1950年基于人机对话的“图灵测试”理论提出后才走下哲学神坛,成为指导现实的技术理论。
随着计算机硬件和机器学习算法的迭代发展,基于人工智能技术的自然语言处理逐渐成为主流。但是卷积神经、循环神经的“千层饼”构造使得传统神经网络语言模型构造复杂且效率低下,而且语言模型与任务模型之间存在一一对应关系,无法做到一个模型处理多种任务。2017年谷歌的基于自注意力机制的Transformer模型极大改善了模型任务用途单一问题,并极大提升了输出语句的情感表达准确性。2018年,OpenAI公司在Transformer的基础上开发了生成式预训练Transformer(Generative Pre-Trained Transformer, GPT)。随后OpenAI又在GPT的基础上迭代了GPT-2、GPT-3、GPT-3.5、ChatGPT和GPT-4。百度也在此技术思路下开发了文心(ERNIE3.0 Titan)大模型。
GPT和文心都是采用预训练技术的大模型,而ChatGPT和文心一言是最具技术颠覆性的一代。相较于以往几代预训练大模型,ChatGPT和文心一言除了使用超大规模语料数据进行训练外,还通过人工标注的指示学习和近端策略优化学习大幅提升了学习实效。其中指示学习(Instruct Learning)通过专业人员进行人工标注的方法为基础预训练模型给出高质量答案范式,帮助其理解人类各类语言指令的内涵与意图。强化学习则为ChatGPT和文心一言输出高度拟人的文本提供技术支持。在强化学习阶段,ChatGPT和文心一言首先采用来自人类反馈的学习方式(Reinforcement Learning from Human Feedback, RLHF)进行反馈判断训练。该阶段同样通过人工标注的方式,对预训练模型生成的不同文本答案进行排序标注,并按照排序结果训练奖励模型(Reward Mode, RM)。随后,奖励模型会按照标注习惯对预训练模型的后续生成文本质量进行判断,从而控制预训练模型的文本生成并使其符合人类习惯。例如,ChatGPT在奖励模型训练过程中聘用了40名专业技术人员进行标注工作,使得ChatGPT的对话内容更加像人类。最后采用近端策略优化学习(Proximal Policy Optimization, PPO)对大模型进行迭代训练,通过迭代修正的方式,使输出文本不断优化。
从大模型发展历程来看,其输入端呈现出显著的训练数据规模“海量”化特点。例如,第一代GPT的预训练参数量为1.11亿,数据量仅为5 GB。GPT-2的预训练参数量为15亿,数据量为40 GB。相较于第一代GPT, GPT-2参数量增长了近15倍,数据量增长了近8倍。如果说GPT-1到GPT-2的规模增量只是倍数级,那么GPT-3的诞生则直接将这一规模增量拉升到了指数级。GPT-3的预训练参数量达到了1750亿,数据量达45 TB,无论是参数量还是数据量都达到了海量规模。其中,参数量增长了近117倍,数据量则增长了1152倍。百度开发的文心一言更是包含了2600亿个参数,冠绝中国乃至全球。此外,从以往的大模型研究来看,在指示学习模式下baet365官方网站,数据量与模型输出准确性呈现正相关。这意味着学习数据规模越大,模型对自然语言的理解与模仿效果就越好。大模型的开发也会不断追求更大的参数和数据量。
相较于传统的大规模语言模型,ChatGPT和文心一言在语言生成上展现出高度智能化色彩,具有强“拟人”化特征。具体来说,一是展现出了一定的自我认知能力。例如,ChatGPT在遇到专业问题提问时会主动承认自身知识水平的有限性。在《时代周刊》与ChatGPT的访谈中,ChatGPT对记者关于语言模型的局限性的提问回答道:“是的,像我这样的大型语言模型有很多局限性”。二是展现出了一定的自我反思能力。例如,ChatGPT会主动承认错误,并对用户指出的错误和意见进行判断、采纳、吸收和优化。三是展现出了一定的质疑能力。例如,ChatGPT会对错误提问进行质疑。在访谈中,ChatGPT对记者关于意识的提问提出了质疑:“不,说我有知觉或意识是不准确的。”四是展现出了一定的思维推理能力。例如,ChatGPT允许任意任务模式的自然语言输入,并能结合上下文对语言任务进行回答,开展多轮语言对话。在访谈最后,ChatGPT对记者关于前述问答的真实性提问时回答道:“你不应该把我所说的都当成真实和准确的。在做任何重要决定或采取任何行动之前,运用自己的判断和常识核实多方信息,才是重要的。”
如前所述,以ChatGPT和文心一言为代表的大模型在自然语言处理过程的输出与输入两端展现出颠覆式的变化。一是输入端的训练数据规模空前“海量化”;二是输出端的语言文本高度“拟人”化。大模型两端的颠覆式变化同时带来了相应的著作权难题。一是规模化数据使用难以纳入合理使用范畴的难题;二是拟人化生成内容不具有可版权性的难题。
《中华人民共和国著作权法》(以下简称《著作权法》)第二十四条第十三款新增了合理使用的兜底条款,在原《著作权法》十二项合理使用的基础上新增了“法律、行政法规规定的其他情形”。对于这一兜底条款的认识,学界分为三大流派:一是半封闭论,认为第十三款在立法模式上属于封闭式立法,但在司法活动上存在突破空间。二是全封闭论,认为第十三款完全倒回了传统的封闭式立法模式上,并评价其为“貌似开放,实则封闭”。三是对立统一论,认为第十三款在立法模式上具有封闭性,但在合理使用的立法本身上留下了开放空间。尽管上述三者在第十三款的封闭性认识上存在差异,但都认为其立法模式属于封闭式。事实上,第十三款是《著作权法》修订时立法开放与司法开放争论的妥协产物。这一妥协结果就是将合理使用解释的开放性留给了立法者,而把封闭性留给了司法者。这意味着司法者在第二十四条列举的具体情形外解释适用合理解释或司法创设新情形的空间被牢牢限制。因此,从法律规定的角度来看,为训练大模型挖掘使用作品数据的行为不属于合理使用范畴。其难以解释入兜底条款之中,也无法适用关于研发合理使用的第二十四条第一款和第六款。因为大模型训练不属于个人行为,主体不属于大专院校、科研院所,训练所需使用的数据量也显著不满足少量要求。
此外,在我国司法活动中,司法者对合理使用的认定虽然具有灵活性,但是合理使用的司法解释仍须遵循“三步检验法”之限制。从法律适用角度来看,“三步检验法”首先要求其适用于“特定且特殊情形下”,其次应符合“正常使用”,最后“应不得不合理损害著作权人合法利益”。但是从立法目的来说,“三步检验法”作为《伯尔尼公约》的宣示条款,旨在为各国立法做出原则化指示,而无统一明确法律内涵之目的。因此,“三步检验法”的三要件缺乏明确、细致可直接适用的法定内核。目前,国内学者多认为“特定”“特殊”的指代情形以《著作权法》第二十四条所列举的情形作为特定法源,对于“特定”“特殊”的理解适用,司法者只能“找法”不能“造法”。此外,对于“三步检验法”三大要件的适用顺序和相互关系也有学者提出了“递进累积关系论”。因此,对于“正当使用”和“不得不合理损害著作权人合法利益”的理解与适用不得脱离“特定且特殊情形”的底层逻辑限定,不得进行先行判断或者独立判断,也不可以相对独立地以“少数服从多数”的方式认定。这就使得为训练挖掘使用作品数据即便可以解释进“正常使用”的文义射程,并在“转换性使用”理论和“市场中心”理论中具有合理正当性,但是依然不能在司法活动中基于“三步检验法”解释为合理使用。
针对新一代大模型而言,大规模数据训练是模型搭建与效果产出的刚需。因此,大规模作品数据使用刚需与著作权保护之间存在天然张力。而大模型生成所需的作品数据挖掘使用无法纳入合理使用之中,所以,挖掘使用行为必须获得版权方的授权。以GPT-3为例,其训练数据主要来自(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。其中Common Crawl、等开源免费,对其文本数据的使用一般不需要获得特别授权。但是书籍、期刊和网络新闻文章只要其还在版权保护期内,毫无疑问需要版权方授权甚至付费使用。而超大规模的书籍、期刊和网络新闻文章文本数据的使用将不可避免地面对“版权壁垒”问题。“版权壁垒”问题由来已久,且与大规模作品使用似乎是一对“双生子”。2004年,Google启动了人类历史上规模最大的数字图书馆计划,计划通过扫描成千上万册图书将海量书籍知识数字化。然而,这场理想远大的知识工程却在世界各国版权方的口诛笔伐中变成了苦难行军。2011年,美国第二巡回上诉法院驳回了Google的图书和解协议,历时7年的“版权战争”以Google功亏一篑告终。
海量的数据使用意味着需要获取海量的版权主体授权并承担天价的交易成本。针对大规模授权问题,Google曾在图书和解协议中提出了“选择退出(opt-out)”规则。“选择退出”规则是一种先使用、先付费,授权后置的“默示授权”规则。该模式允许使用人在正常支付版权费用的前提下先行使用版权文本,但版权人有退出选择权。当版权人告知使用人不同意使用意图后,使用人应当停止使用。不幸的是,包含这一模式的图书馆和解协议最终被裁定驳回,未能经由英美法系的判例法制度成为一项法定模式。此外,“选择退出”模式也违反了版权授权的一般惯例。以我国为例,《著作权法》第二十六条明确了以订立合同形式的许可使用规则。该规则实际上暗含了版权使用的授权前置要求。我国学界在研究Google数字图书馆案例时也认为“选择退出”规则的退出后置做法违反了版权授权的国际惯例。
由于版权使用问题上缺少“默示授权”规则,在面对海量版权授权时,版权实际上如同一道壁垒摆在使用者面前。且不说面对海量版权主体进行单独授权所需消耗的人力成本与时间成本,单就交易成本而言都是难以估量的。而高交易成本会显著降低协议达成效率,甚至可能遭到权利人的劫持谈判策略损害。此外,资本的逐利性会驱使使用者最大限度绕开壁垒,减少交易成本,造成侵权风险。GPT大规模语言模型本身具有算法黑箱属性,当前Open AI并未公布所有文本数据授权,且种种证据表明Open AI存在未授权先使用的风险。
在大模型生成活动中,信息首先被转化为数据用以大模型训练,随后数据作为一种暂存态用以机器学习,最后通过机器学习再将数据重组为信息文本用以输出。在信息文本转化的输入阶段,大模型面临着大数据来源的版权合法性问题。在机器学习阶段,数据的暂存态与《著作权法》中复制行为的稳定持久态相抵触,因此该阶段通常不存在显著的著作权法律困境。需要进一步讨论的是,作为数据形式存在的输出文本是不是“作品”,即是否具有可版权性。
无论是大陆法系还是英美法系均对“作者”作了人类限定。例如,《德国著作权法》严格恪守“创作者为作者原则”,作者只能是自然人。又如,美国版权局在最新版权登记指南中再次重申了“作者”的自然人属性。我国现行《著作权法》虽然采纳了“视为作者”规则,而未明确“作者”的自然人属性,但对“作者”依然有主体资格要求。无论当前学术界对人工智能体的主体资格有何争议,都无法影响新一代大模型在现有技术环境下不具有主体资格这一事实。过于关注抽象语境以及未来不确定的科学技术,只会让法学研究走上科幻歧路。人工智能体主体资格肯定说或有限主体资格说普遍认为,生物特征或生理结构从来不是民事法律主体资格的判断依据,且“人类中心主义”本身具有不合理性。因此,只要人工智能体拥有人类智慧特征,具有自主性,能够自我运行、自我学习、推理结果并做出合理决策,它就能够拥有主体资格或至少拥有有限主体资格。从其论述来看,人工智能体主体资格肯定说或有限资格说具有合理性且完全能够自洽,但其唯一的缺点是陷入了“科幻论证”的窠臼。“拥有人类智慧”“强自主”“类人推理”等特征显然不符合当前人工智能发展水平,这一描述更符合“强人工智能”阶段的人工智能体。
首先,大模型不具备“类人智慧”,前文已经详细阐释了大模型的生成原理。其“拟人”化的生成内容完全是价值模型的控制结果。不重复的对话内容完全是随机输出的机制作用。大模型的“智慧”表象仅仅是一个被精巧设计过的工具,与“类人智慧”有着云泥之别。其次,新一代大模型的学习生成过程仍然依赖人类监督。其语言风格及文本输出结果的准确性完全依赖于人类的训练素材选择和数据标注。从素材选择到数据标注,每一步都是人为主动介入的结果,而非自主意识做出的。换言之,模型从第一步学习素材选择开始就不具有完全的强自主性。最后,新一代大模型在创作过程中的根本推理逻辑是数学推理,其创作过程是对高价值语句的判断与输出。尽管数学可能是艺术,但艺术绝对不是数学。人类对文学艺术创作的逻辑推导不是理性的数学判断,而是感性的美学判断。因此,新一代大模型在艺术创作领域完全不具备“类人推理”。
“思想与表达二分法”是识别版权客体的重要基本原则之一。1994年世界贸易组织《知识产权协定》明确“版权延及表达,而不延及思想”,1996年世界知识产权组织《版权公约》则规定著作权不保护纯粹的思维活动。基于“思想与表达二分法”的共识,法律含义下的“二分”即思想不受保护而表达受到保护。但是从语义学层面理解,思想与表达难以二分,因为思想是表达的内在基础,表达是思想的外在表现,脱离思想的表达真实存在吗?一种可行的路径是跳出语义层思维,而“将其理解为著作权法中受保护的部分与不受保护的部分的隐喻”。因此,“思想与表达二分原则”依然具有著作权保护层面的法律合理性。综合其语义关系和隐喻关系来看,受保护之客体为经由思想产生的表达,而非单纯割裂于思想的“表达”。进而,就新一代大模型的“思想”与“表达”判断而言需要讨论以下两个问题。问题1:何为“思想”,以及学习活动是否属于“思想”范畴?问题2:何为表达,以及生成活动是不是基于思想的“表达”?
“思想”一词在《著作权法》中被提及却未有一个明确的定义。思想与表达二分原则最早来源于美国1976年《著作权法》第102条(b)款,该款中对思想一词的表述是“idea”,随后TRIPs协议第9条第2款和WIPO版权条约第2条都使用了“idea”一词baet365官方网站。从“idea”一词的判例法来源看,该词来源于美国联邦最高法院贝克诉塞尔登侵犯著作权案。
在贝克诉塞尔登案中,法院认为书中的创意方法及创意思想不受著作权法保护。因此,从判例法渊源角度对“idea”一词进行解读,将其解读为“一种创造性想法”较妥。在创作过程中,无论是文学创作还是艺术创作,作者总是基于一定的创造性想法进行创作的,而其最终作品便是这一创造性想法的外化表现。因此,思想一词做“创造性想法”解读更为贴切。解决了“思想”一词的定义问题,又一新问题萦绕心头,何为“创造性想法”?马克思主义认识论揭示了人思想上推陈出新的本质规律,即“否定之否定”。基于马克思主义认识论,可以将“创造性想法”再拆解为三步,第一步“基于客观存在的抽象认识”,第二步“对认识的批判”,第三步“对批判的批判”。在日常生活中,论文写作是这一规律的真实写照。至此,“思想”一词已经具象化为人类的认识规律。下一个问题是新一代大模型对自然语言的理解与处理是否符合这一规律?目前来看,其只具有“基于客观存在的抽象认识”形式,而不具有认识实质,同样不具有批判和对批判的批判。首先就认识而言,“中文屋子问题”形象地解释了语言模型对自然语言的所谓“认识”。在“中文屋子问题”中,语言模型被假设为一个坐在放有中英对照语法规则和对照词典中的英语使用者。英语使用者只是遵照规则和词汇匹配将英语短句重组为中文短句,其既不认识每个中文词汇的意思,也不理解所表达句子的内涵。其次就批判而言,新一代大模型虽然展现出了人类独有的质疑、认错、更正等类人批判思维,但其只具有类人批判思维的形,而不具有类人批判思维的实。从原理上看,质疑、认错、更正等仅是基于人类反馈的强化学习技术实现的对人类智慧活动的形式模仿,是一种对人类批判认识规律的逆向工程表现,而非对错误的反思。最后,不存在对认识的批判,自然也不存在对批判的批判。由于“思想/表达二分原则”仅是一种隐喻,因此不具有思想前提也没有必要再讨论表达之结果。
我国《著作权法》中的独创性包含“独”和“创”两个维度。其中,“独”是“独创性”有无的性质门槛,而“创”则是“独创性”高低的程度门槛。我国著作权法既需要对“独创性”的性质门槛认定,也需要对程度门槛的判断。
回到新一代大模型来看。就“独”而言,其要求“独立完成”和“个性化表达”。当前新一代大模型生成难以满足上述两点。一旦离开数据标注员的参数标注和训练员的文本数据输入,大模型不可能生成任何其他类型的新作品。因此,新一代大模型自身不满足“独立完成”要件。此外,ChatGPT和文心一言的“个性化表达”也非AI本身的个性化体现,而是创作者对大模型训练的特定体现。就“创”而言,其生成成果可以很好地满足客观主义下的“最低限度创造”的形式要求。因此,新一代大模型在客观主义下不存在显著的创造性障碍。但是,当前我国对独创性之“创”还存在隐含的价值判断,这一点在学界和司法实践中十分显见。例如,有学者认为“作品”应有文艺和科学美感。又如,司法者在涉艺术品司法判决中对独创性施加了艺术审美要求。这一隐含的价值判断与著作权法对独创性的要求有关。价值判断的本质是对作品内涵一定思想深度的要求,新一代大模型的生成本质是参数标注与概率计算,由于其不具备人类思想因此不可能满足一定思想深度的潜在要求,进而难以符合价值判断要件。综上所述,新一代大模型生成内容不具有独创性。
合理使用作为版权的权利限制制度,设计之初本用于抵消版权权利可能产生的壁垒效用,从而起到鼓励驱动创新、激励创作、促进知识公众传播等作用。基于壁垒破除效用,有学者得出克服市场失灵才是合理使用制度的核心价值,并提出了合理使用的审视等式。该等式认为当使用者获取许可的交易成本显著高于利用行为产生的社会福利时,这一使用行为就应纳入合理使用制度的审视范畴中来。
回到大模型的发展态势来看,首先,大模型的研发训练日益依赖大数据的“滋养”。但在数据日益版权化的今天,数据版权与大模型研发之间正呈现出难以调和的张力。而根据版权保护与创新之间的“负相关性”原理,易知合理使用在数据挖掘上的严格限制势必对大模型研发创新形成阻力,且数据需求规模越大,阻力越大。其次,ChatGPT和文心一言正开启智能互联时代的新阶段,严格合理使用将有损社会总体福利。以ChatGPT为代表的大规模语言模型将实现对人类社会的又一次重大赋能赋权,将产生革命性影响。大模型具有突破人机沟通“巴别塔”语义鸿沟的底层技术价值,有望成为打开智能数字互联社会的钥匙,具有不可估量的潜在社会价值。最后,世界主要数字经济体均在为数据与文本挖掘行为松绑。美国早在2017年《人工智能未来法案》中就已表明了其对大模型开发和数据共享的支持立场。欧盟长期以来的强监管态势使其在大模型研发领域已实际上落后于中美,为实现技术追赶,欧盟也在《数字化单一市场版权指令(欧盟第(EU)2019/790号指令)》中为数据与文本挖掘松绑,为其创设法律例外。韩国也表示正考虑修改《著作权法》允许使用各种出版物进行数据分析,加快本国大模型研发,增强本国科技竞争力。因此,顺应技术趋势与时代潮流,将大模型研发训练的数据挖掘使用纳入到合理使用审视中来正当其时。
综上所述,可以在兼顾社会整体利益、科技创新能力、产业竞争能力和著作权主体合法权益的基础上,构建更加开放的合理使用制度。一是可以对合理使用本体条款即《著作权法》第二十四条第一款和第六款进行升级扩容,分别突破第一款下“个人”和第六款下“大专院校、科研院所”的主体限制;二是可以对合理使用的非营利性目的进行进一步解释。对其解释可分为两种路径。其一是在不突破非营利性目的的限制下,将非营利性目的限于直接目的之下,将虽用于企业经营,但主要为研发创新所需的数据与文本挖掘间接性行为排除在外。其二是直接突破非营利性的目的限制。三是可以用好合理使用兜底条款即《著作权法》第二十四条第十三款,通过制定生成式人工智能行政法规的形式为大模型研发所需的数据文本挖掘合理使用提供制度空间。
随着信息革命所带来的影响,学界对版权制度的认识正悄然发生变化。早期人们对著作权的认识是类物权baet365官方网站,并倾向基于“未得同意,不得使用”的“财产规则”构建著作权规则。1972年,一篇载于《哈佛法律评论》的文章总结了著作权的“财产规则”“义务规则”和“不可让与规则”并开启了“财产规则”与“义务规则”的“三十年战争”。2006年,“Field v. Google”案将基于“义务规则”的“选择退出”制度推上了舆论的风口浪尖。承载该构想的和解协议虽然被司法否决,但却拉开了互联网时代“选择退出”制度适用的序章与慎思。2011年,我国“叶根友诉无锡肯德基”案中,法院实际认为权利人将其“叶根友行书库”免费上传网络并不限制使用的行为构成“默示许可”。此外,也有学者认为我国《著作权法》和《信息网络传播权保护条例》实际已经开始了“选择退出”默示许可制度的探索,只是制度设计不够明显。此后,有学者认为“默示许可”能较好地匹配网络时代大规模作品使用的特殊情形。可见信息革命正不断掏空“财产规则”下“选择进入”制度的正当性根基。这一进程是必然的,因为产权保护规则有效性的基本逻辑是规则是否有利于促进交易。
在人工智能与大数据时代以千亿计的数据参数面前,放宽著作权使用标准,构建“义务规则”下的“选择退出”机制具有法经济价值的合理性。此外,进入Web3.0数字经济时代。传统经济的三大假设理论基石已经发生动摇,其中基础性的资源稀缺假设已经被共享经济所动摇。理性经济人的“自利”思维已经被网络社会的“利他”思维所动摇。共享思维与网络文化传播的边际效用递增效应正成为Web3.0数字经济时代的底层逻辑。基于“财产规则”的“选择进入”模式正愈发与“共享”背离。构建“义务规则”下的“选择退出”机制具有数字经济时代底层逻辑的合理性。最后,互联网时代面临的“版权蟑螂”问题已经十分突出,“选择进入”模式下,大模型的数据规模化和刚需化只会招致更严峻的“版权蟑螂”问题。因此,构建“义务规则”下的“选择退出”机制还具有工具主义的实用性。
综上所述,可以在《著作权法》第二十六条的基础下,通过制定生成式人工智能行政法规的形式,为大模型研发所需的数据与文本挖掘设计“选择退出”许可制度。但也要注意到,“选择退出”机制会将原本由使用人承担的特定义务转换到权利人身上,增加权利人版权利益的实现负担,降低使用人的侵权风险。因此,“选择退出”机制应严格限定使用范围及适用情形。
布莱克斯通法律思想认为,法律的变革是遵从稳定性基础上的变革,要在秩序的维持与延续状态下进行。同时还认为,对法律系统的考察应嵌入当时的社会环境之中。因此,《著作权法》的作者内涵及其权利安排应顺应生成式AI发展趋势,构建“法人视为作者,版权归于法人”—“AI视为作者,版权归于法人”—“AI即为作者,版权归于AI”的纵深式、渐进式制度安排模式。
一是在弱人工智能阶段构建“法人视为作者,版权归于法人”的主体权利构造。首先,我国《著作权法》已有法人“视为作者”的具体规定,这一构造在当前《著作权法》体系面前不存在法律障碍。其次,在司法实践中,这一构造也获得过支持。在“腾讯诉上海盈讯公司”案中,涉案文章虽然是AI生成创作,但可将法人视为作者。最后,著作权保护的实质是作品背后的独创性智力劳动。《著作权法》的立法目的在于鼓励创作,而独创性智力活动才属于创作,才可能受法律所鼓励。美国版权局在最新版权登记指南中认为,创作劳动的贡献是考察版权的重要因素,而用户使用生成式AI的行为不存在实质性贡献。因此,为AI生成提供集体智力劳动的法人才是这一阶段中的合理作者。
二是在生成式AI由弱及强的迭代时期构建“AI视为作者,版权归于法人”的过渡式主体权利构造。在这一阶段,可版权性的主体要件需要做出“去人类中心主义”的迈步。纵观人类历史,作者作为人之主体的消解并非当下产物,早在1968年法国文坛领袖罗兰·巴特就得出了“作者之死”的结论。尽管这一结论并非直接宣告作者作为创作主体地位的消解,但也给世人带来了作者能不能死的讨论,至少让作者的主体性在哲学层面变得不再具有“神权天赋”般的应然性。如果说罗兰·巴特的“作者之死”只是在哲学层面第一次消解人类作者的主体应然性,那么大模型则在现实层面对其进行二次消解。罗兰·巴特把文学艺术创作的焦点从作者拉到文本上,大模型则证明这一转变的可行性。文学也好,绘画也罢,其总能被类型化、模块化。从结果来看,大模型创作在效率层面显著优于人类,其仅在非理性表达上不及人类。尽管由于AI无法良好计算更为抽象的意识表达,文学界尚不愿意承认AI的作者主体性,而更愿意将其视为“他者”,但是巴特的“作者之死”和大模型高度“拟人化”的作品削平了文学的深度,对何为文学意义上的作者带来了二次拷问。在迭代时期,可以预见生成式人工智能将展现出真正的“类人”智能水准,以及“以假乱真”的生成成果。其生成内容的客观外在表现将与人类作品无异,甚至在创作思维与智力活动上都与人类相似,仅在主体的意识活动能力上尚不具有自主性,只在意识自主上尚属于背后团队的“意识奴隶”。在这一阶段,可以采取名义权利主体与实际权利归属相分离的构造,开放作者的去人类空间,将AI视为作者。同时,基于民事法律主体和权利归属要求以及著作权雇佣作品权利归属理论将作品著作权归于法人。
最后,在强人工智能阶段,宜构建“AI即为作者,版权归于AI”的版权主体权利结构。首先,从法律渊源角度出发,康德虽然创设了“伦理人”,但是作为大陆法系民法滥觞的德国民法却没有采纳“伦理人”构造,而是选择了基于“权利能力”的“形式人”构造。换言之“形式人”因具有“权利能力”而成为法律主体,而不因是“伦理人”成为法律主体。回到强人工智能上,这一阶段的AI在思想上已经与人类无异,甚至拥有独立自主意识。这意味着其能够独立做出意思表示,并承担相应的法律后果,具有一定的“权利能力”,自然应因视为民法上的“形式人”。其次,从工具主义角度出发,赋予AI版权主体地位可以有效解决“AIGC”所面临的“行动之法”与“纸面之法”相偏离的问题。最后,保守主义论者认为“一旦赋予人工智能民事主体地位,意味着两种智能主体的并存”,进而导致民事法律关系被颠覆。但是,“伦理人”不是因为写入法律而存在,强人工智能也不会因为不写入法律而不存在。法律只是“实然”的“应然”映射。
“AIGC”时代的客体要件回应主要包括两个方面,一是将作者权法转向版权法,二是将独创性的主客观一体审查改为客观审查。AI的发展正将作者中心主义转向作品中心主义,而作品的价值在于交易,有学者认为著作权制度的功能在一定程度上在于促进作品的商品化。如果恪守作者中心主义,要求作品必须体现一定的思想意志表达,那么“AIGC”将无法纳入商品化的进程中来。这既不符合“AIGC”的发展业态,也不利于保护和鼓励技术创造。因此,更可行的做法是伴随着作品中心主义的转向,推动以人格权为出发点的作者权法向以财产权为出发点的版权法转向,消除一定的思想意志表达的要求,同时也迎合作者主体的“去人类中心化”改造。
客观审查并不意味着不审查主观方面,而是将主观方面作进一步隐喻化处理。从立法的目的来看,独创性之“独”旨在保护独立创作这一事实,而将抄袭、剽窃、篡改等广义复制行为剔除出去。由于上文已经讨论了“作者”主体的扩容,因此不必再拘泥于独立创作是人类做出、AI做出还是人类借助AI做出,只要考量其形式上满足独创即可。只要不是借助AI抄袭、剽窃、篡改等“创作”就符合“独”之要件。再者,客观审查还需要对“创”进一步改造,消除价值维度。从哲学上看,“休谟之问”将哲学上的事实维度与价值维度一分为二。由于法学的奥秘蕴含于哲学,因此事实与价值二分原则也被很自然迁移到法哲学之中。法哲学上认为“事实与价值分属两个领域,事实问题以客观标准验证某一事物是否为“真”;而价值问题则是人基于特定需求对事物善恶、美丑之主观评价”。在这一法哲学思想上,人们对著作权的“创作高度”认识也发生了改变。例如,德国发展出的小硬币理论认为著作权的“创作高度”标准很低,达到一枚小硬币的厚度即可。事实、价值二分原则和小硬币理论的发展标志着独创性不必再具有“创作高度”的价值判断维度。从现实来看,“AIGC”要想生成具有高度思想深度的仿真作品需要对大规模模型进行难以估量成本的调试。这在技术上存在难度,在经济商用上更没有“钱”途。而这一没“钱”途的价值追求又与知识产权立法之基“是一种经济需要”背道而驰。因此,无论从法哲学层面的独创性理论发展来看,还是从“AIGC”的商用权利保护现实需要来看,独创性之“创”都应消除价值判断,回归“最低限度”判断。
《科技与法律(中英文)》立足科技创新与法律实务的交融发展,成为横跨科技、法律、知识产权领域从事学术交流、实务沟通、绩效展示和形象推介的重要媒体和信息平台,致力于实现“促进科技与法律互动、服务学术与产业创新”的办刊宗旨。
无论是工作汇报,产品介绍,还是法律研究报告、市场宣传文案,法宝智能写作系统都能为您提供高质量写作支持,满足法律工作者日常学习工作中各类领域的写作需求,提供源源不断的创意与灵感,全面助力您的文案写作。您可以在平台上选择不同的写作模型,输入关键词和要点,即可自动生成文档大纲与内容。平台内嵌法宝V6数据库,让您的内容创作有据可依。与此同时,智能写作平台还支持实时对生成文档进行修改和优化,确保文章撰写的准确性。
“一键生成文章大纲”——输入关键词和内容要求,即可自动生成文章大纲,为您提供创作起点和清晰明了的写作思路。
“智能生成文章内容”——GPT模型结合法宝数据库快速生成逻辑自洽、内容丰富的文章。
“法宝V6数据库支持”——查阅生成结果的相关法律法规、学术期刊等信息。可准确理解法律术语,帮助生成符合要求的法律文件;能够自动匹配对应法律法规,实现法理逻辑处理自动化,增强文章权威性与可信度。法宝智能写作能及时跟踪法律法规的最新变化,避免使用已失效或废止的法律条文作为参考。
本文声明 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北律信息网(北宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。