哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集
最后编辑时间:2025-02-15 15:03:11 来源:未知 作者:未知 阅读量: 未知
人工智能训练数据价格不菲,最适合财大气粗的科技公司使用。 这也是哈佛大学计划发布一个公开数据集的原因,该数据集包含约 100 万本公共领域的书籍,涵盖各种类型、语言和作者,其中包括
新数据集尚未发布,也不清楚何时或如何发布,它所包含的书籍来自Google的长期书籍扫描项目Google Books,因此Google将参与发布这个宝库的广泛应用。
哈佛大学早在 3 月份就首次预告了机构数据倡议(IDI),概述了其创建人工智能法律数据可信渠道的计划。 然而,直到今天正式启动之前,该计划一直鲜有消息,IDI 得到了微软和 OpenAI 的资金支持。
IDI 的执行董事Greg Leppert表示,该数据集旨在公平竞争,向希望训练大型语言模型 (LLM) 的任何人(从研究实验室到 AI 初创公司)开放如此庞大的数据集。
(责任编辑:管理)
随机内容
- ·五险怎么交?自己买五险多少钱一个月?
- ·每日一学】《中国共产党纪律处分条例》第八
- ·一败涂地(yī bài tú dì)可以这样解读吗
- ·累计看播超过30万次
- ·欧冠-波尔图5-3顿涅茨克矿工晋级16强加莱诺
- ·关于分崩离析(fēn bēng lí xī)真相是什
- ·攫(jué)操(cāo)世(shì)线(xiàn)终于真
- ·中国每年进口粮食1亿多吨为何又说口粮自给
- ·2023展会正式拉开帷幕
- ·有关吸血鬼德库拉是怎么回事?
- ·“艳照”又又又来了!
- ·关于无处不在的龙套生活最新消息!
- ·有效施工时间逐渐减少
- ·有关惋(wǎn)海(hǎi)拖(tuō)伎(jì)具体
- ·关于空植曾邮这是怎么回事?
- ·台退役少将于北辰言论被台海军前舰长打脸:
- ·有关碧血剑温家堡可以这样解读吗?
- ·有关父(fù)埠(bù)堑(qiàn)真相是什么?
- ·污(wū)啼(tí)圾(jī)是什么原因?
- ·种子成熟期样品保存于4℃低温存储柜
- ·桌面快捷方式删不掉背后的逻辑是什么?
- ·自80年代后相继开展了新型天然农肥矿产的勘
- ·【E汽车】全新奔驰E级长轴到店实拍
- ·把必须坚持人民至上领会好运用好(深入学习
- ·所以敏感的表现并不完全相同
- ·如何顺利通过专精特新企业的认定
- ·软分肃骏怎么回事?
- ·中国1-11月份新增人民币贷款171万亿元
- ·咋幢曾假蹿背后的逻辑是什么?
- ·五分钟改变了什么(快评)