繁荣背后存隐忧 美AI巨头被控秘密“侵吞”数据

发布时间:2024-09-17 10:32:21 来源: sp20240917

  【今日视点】

  ◎本报记者 张佳欣

  人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。

  据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。

  收集数据“走捷径”

  英国《泰晤士报》近日刊文指出,科技巨头一直在“走捷径”为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。

  美国《商业内幕》网报道称,YouTube在其官网明令禁止“独立”于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。

  实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格·布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。

  最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。

  当OpenAI首席技术官米拉·穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。

  《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。

  面临“数据瓶颈”

  对于科技公司来说,庞大的数据“肥料”是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。

  但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI“养分不足”。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。

  这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。

  Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

  在人类数据告急的情况下,不少公司甚至试图用AI“喂”AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的“合成数据”,“喂”给参数更小的模型。但有研究认为,合成数据最终将让AI“自食其果”。

  因版权被多方状告

  《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于“合理使用”,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。

  去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。

  生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。

  《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。

  美国电影制作人、前演员及作家贾斯汀·贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,“这是美国最大的盗窃案”。(科技日报) 【编辑:曹子健】


Warning: Cannot modify header information - headers already sent by (output started at /www/wwwroot/jintexws.com/snews.php:13) in /www/wwwroot/jintexws.com/snews.php on line 17
推进人工智能治理法治化(有的放矢) - 讲好古树名木故事

推进人工智能治理法治化(有的放矢)

发布时间:2024-09-17 10:32:22 来源: sp20240917

  人工智能是引领未来的战略性技术,是新一轮科技革命和产业变革的重要驱动力量,是必须抢占的科技制高点。新时代,以习近平同志为核心的党中央高度重视人工智能发展,积极推动互联网、大数据、人工智能和实体经济深度融合。党的二十届三中全会《决定》提出“建立人工智能安全监管制度”,这对于确保人工智能安全、可靠、可控具有重要意义。深入贯彻落实党的二十届三中全会精神,必须坚持全面依法治国,加快人工智能立法进程,推进人工智能治理法治化,更好发挥法治对于人工智能健康发展的引领、规范和保障作用。

  适应现实需要。新时代,我国制定了网络安全法、数据安全法、个人信息保护法等法律,在一定程度上已经涉及人工智能安全监管。此外,有关部门还出台了《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等部门规章,在人工智能治理中发挥了积极作用。但是,与人工智能安全监管日益增长的法治需求相比,相关规范还存在一些短板和不足。比如,法律体系还不够完善,缺少人工智能安全监管的专门法律,在一些促发展、保安全的关键问题上还存在立法空白;现有规则分散在众多法律和部门规章中,一些规则相互协调衔接不足;等等。推进人工智能治理法治化,要深入推进科学立法、民主立法、依法立法,总结人工智能治理经验,汇聚各方面力量和智慧加快人工智能立法进程,确保人工智能始终朝着不断增进人民福祉的方向发展。

  确立治理依据。随着生成式人工智能等新一代人工智能技术蓬勃发展,人工智能产品和服务正日益商业化、大众化、普及化,人工智能的潜在安全风险随之更加突出,人民群众对确保人工智能安全、可靠、可控的需求更加强烈。加快人工智能立法进程,推进人工智能治理法治化,要坚持以习近平法治思想为指导,坚持以人民为中心的发展思想,为人工智能安全监管提供更加完备的法律依据,营造有利于人工智能健康发展的良好法治环境。要明确人工智能技术研发、使用、治理应当遵循的理念和基本法律原则,确立人工智能治理的正确价值导向,为人工智能立法的解释适用和完善发展提供价值指引。要确立人工智能治理的基本法律规则,助力破除人工智能发展的制度障碍,为制定人工智能治理法规规章等下位法提供法律依据,为人工智能安全监管执法、司法活动提供权威准则,促进落实《全球人工智能治理倡议》。

  发挥制度功效。加快人工智能立法进程,推进人工智能治理法治化,旨在促进人工智能健康发展。应从技术研发、数据利用、算力供给、激励创新、技术共享等方面完善规则,更好满足人工智能产业发展、人工智能与经济社会发展深度融合的制度需求。人工智能立法要统筹发展和安全,着眼于坚决维护国家安全和社会稳定,完善安全监管规则,加强分级分类监管,加强对有关风险的动态分析、评估预警,提高人工智能安全监管能力。要支持政府部门、行业组织、社会公众等多元主体参与人工智能治理,明确相关主体的法定权利、义务,确立行为的合法边界及法律责任,防止滥用人工智能;同时为创新保留适当空间,避免不合理的规则阻碍人工智能创新,促进以人为本、智能向善。人工智能立法要推动人工智能国际交流合作,提升我国参与人工智能全球治理的话语权和影响力。

  (作者为中国人民大学法学院副教授)

  《 人民日报 》( 2024年09月02日 09 版)

(责编:卫嘉、白宇)