2011年4月8日星期五

达尔文主义能战胜鸵鸟主义吗?


/NICO-H


WorldCat数据库由全球2.5万个图书馆的资料汇集而成,据这家世界最大的图书馆目录服务网提供的数据,全世界目前共有3200万本书。谷歌的计划是,至少将其中大部分扫描下来。2007年的一次采访中,分管图书搜索项目的谷歌美女副总裁玛丽莎梅耶说:“我认为我们能在10年内全部做完。对我来说难以置信,我们马上就要做到了!我认为谷歌图书项目就是我们的登月计划。”

这个计划说起来还真是比登天都难,原《连线》杂志前主编凯文·凯利2006年5月在《纽约时报书评》上就谷歌图书计划写了一篇文章《扫描这本书》,其中提到一组数据,除了这3200万本书,以及互联网诞生以来出现的1000亿个网页,人类有史以来的文明,还包括共约7.5亿篇文章、2500万首歌、5亿幅图画、50万部电影、300万个视频短片和电视节目——将其中任何一项进行数字化的尝试都类似再造一座巴别塔。谷歌创始人希望将所有现存图书扫描下来放到网上,这是个梦幻般的决定,此项计划的支持者们认为,“这项数字领域雄心勃勃的计划,就像当年麦哲伦的环球航行一样意义深远。” 但是,谷歌面临的挑战远不只这个计划本身的难度。


永不关门的图书馆


翻墙登录books.google.com,输入一个词或一句话,比如“黑夜给了我黑色的眼睛”。这次搜索能带回637个作品目录,其中包括顾城的诗歌精选集,这句话出现在书的第二页,是名为《一代人》的诗中的一句话。因为全球范围内出版商和作者们对Google图书计划的抵制,Google关闭了全文检索功能,内文只呈现“黑夜给了我黑色的眼睛,我却用它寻找光明”这两句话,其余相关信息都以摘录预览方式呈现,简要的读书概述、本段话出自书中哪一页、作品名称、作者、出版社、ISBN编号、页数等其他一些补充信息。

一个技术如此强大的公司最终呈现的搜索结果只是如此可怜的一些基本信息,这与谷歌在美国以及世界其他国家(包括中国)在此计划上受到的围追堵截有关。在他们为这项计划特别定制的扫描设备运行几年之后,20099月,谷歌宣布将通过与高速印刷机生产商On Demand Books【“浓咖啡印书机”(EBM的制造者合作,正式跨入印刷业务,为广大爱书人提供印书业务。

“浓咖啡印书机”是一个革命性设备,能快速为普通大众提供按需印刷服务,特别是很多处于非版权保护期的绝版图书,只要有电子文件,5分钟就能印出300页,速度非常快,而售价只要8美元。根据与On Demand Books的合作协议,谷歌将为读者供应超过200万册没有版权争议的图书,收益双方共享,每册分别可获益约一美元。谷歌这部分收入将捐献给慈善组织。

谷歌此举也不单是为了展示自己强大的实力。几年来,他们的新应用一个接着一个发布,让人眼花缭乱,从街景视图Street View到可视化新闻搜索Fast Flip以及最近刚刚发布的Buzz频繁的新产品发布让大多数竞争连招架之力都没有。但是,他们的数字图书馆计划却一直纷争不断,到处面临非法指控。一年前,谷歌历经艰难,终于与作家及出版商就集体诉讼案达成和解,但天有不测风云,尽管支持者众多,但反对者也不少,包括中国著作权人在内的世界各方纷纷跳出来表达对这项“霸王条款”的愤怒,之前的协议被叫停。纠纷主要出现在以下几个方面:

如何在不损害作者利益的前提下为旧书开拓新的市场?

如何在不扼杀竞争的前提下开发新技术?

当一个公司(谷歌)在变革中遥遥领先并可能获得巨大收益时,如何保证其他相关组织的利益?

谷歌的联合创始人谢尔盖·布林去年10月9日在《纽约时报》上发表《永不关门的图书馆》一文,对和解协议的被终止作出回应,但是,他在其中提出的解决方案显然是不能令图书业旧生态系统中的职业人士满意的,因为问题的关键在于,一个新的生态系统已经被引入,游戏规则发生了变化,之前的特权机构(版权机构、图书出版社)成为横在创作者与大众之间的障碍,而不再是连接两者的中介,在这种情况下,与固守旧模式者的对话基本等于是无效对话。

若说谷歌与On Demand Books的合作真有什么意图的话,也许就是希望用这种谁都挑不出刺的“合法”行动来向反对者们传达一个信息:“谷歌数字图书馆计划并不是一次心血来潮的产物,而是互联网技术发展所必然导致的结果,一个已经发生在我们的世界,不可能再被取消的事件。”



适者生存


并不是只有谷歌在做图书数字化这件事,亚马逊已将数十万本在售图书数码化,允许用户搜索原文;卡内基梅隆正在主持一个叫大学图书馆的计划,迄今为止也扫描了近200万本图书;由雅虎、微软和几家大图书馆组成的开放内容联盟(OCA),也在扫描图书;做同样事情的包括其他许多类似但规模小一些的项目。

然而,只有谷歌是以相称于其公司哲学——组织全球信息,使之便于取得和使用——的规模在运作这个计划。部分是由于这种野心,令这家已有大约3万名雇员,市值近2000亿美元的公司成为众矢之的。

2005年,美国出版业和版权持有者提起诉讼,声称在未经授权的情况下将图书数字化并允许用户部分使用的行为违反了版权法。后来经过长期谈判,谷歌和相关各方达成了和解协议,但是反对呼声没有停止,在欧盟、以及谷歌竞争对手微软、亚马逊表示强烈反对后,美国版权局高层也提出了反对意见。

对大多数普通作者而言,这项和解其实好处多多,尤其是那些销量只有几百册或几千册的图书,还有绝版书,只要能找到版权持有者,Google按每本60美元支付使用费,并与作者和出版商分享未来的收益(作者和出版商能拿到63%的利润),更重要的是,数百万本处于版权保护期、但已绝版或很难再找到的书将重新获得找到读者的机会。搜索相关信息的人将从Google这里知道这些书的存在,能够在线阅读部分内容。图书搜索系统即刻提供能找到全文的图书馆链接或是零售商链接——如果他们真的有这本书的话,搜索者说不定还能买到一本。那些不想参与该计划的版权持有者,可以选择退出。

大多数作家都认为这个结果还算令人满意。

关于谷歌两位联合创始人谢尔盖·布林和拉里·佩奇如何在斯坦福大学计算机科学系研究生院相识,并发明出一系列美妙搜索软件的故事,已成为硅谷口头传说的一部分。这个故事中并不那么广为人知的部分是,布林和佩奇当时都为斯坦福大学的数字图书馆技术项目工作。“当时,计算机科学系有种看法,认为把知识存放在死树(dead tree,即纸张)上是过时的,而把它们变成可查找的数码格式是一种追求,某一天必将成为现实。”佩奇和布林当时的导师、斯坦福大学教授特里·温诺格拉德说。

1998年,创立谷歌之后的佩奇和拉里又想起当年那个计划,与当年不同的是,他们现在想的是如何才能将图书内容收入自己公司的数据库。特别是佩奇,他希望将所有的书籍都放到网上;用一台扫描仪和一个自动翻页装置,他在自己的办公室成立了实验室。

谷歌对搜索的全面性和综合性一直很在意,但这两个永不满足又满脑子天才念头的创始人希望能再向前来一次飞跃。“全面性和综合性不是全部,搜索最重要的是能获得真正高质量的信息。我们拥有人类数千年的知识积累,质量最高的知识都被收藏在书里。如果搜索结果不包括这些——这是多么大的遗漏啊。”布林在一次采访中说。

就像玛丽莎梅耶所说:“谷歌为人们提供了获得世界上所有知识的渠道,我们因此而知名,如果能为用户找到获得图书内容的途径,我们将得到更高质量和更可信赖的信息。我们将在食物链中晋级。”

2002年,谷歌低调地向几家主要大学的图书馆提出建议,希望能将后者的全部藏书免费进行数字化,并向图书馆提供每本书的电子版。在数码时代,作为知识前沿阵地的大学图书馆也早已认识到了将图书馆中的资料数码化的必要性和紧迫性,数码化图书既可以方便查阅,也是对收藏手段的完善,何乐而不为?

20047月,谷歌首先与密歇根大学的图书馆开始了小规模实验计划。实验进行得很顺利,扫描速度越来越快,产量一直在翻倍。照这个速度进行,密歇根大学图书馆的700万册藏书,谷歌能在约6年内扫描完。

20071月,就未来的出版业走向这个话题,谷歌在纽约公立图书馆召开了一次会议大约有400人参加,大多是出版业主管和代理人。在那次会议上,绝大部分与会者都阴郁地意识到,本行业在快速变化的数码时代采取的是鸵鸟政策,从业者主要有两种反应,不思进取或是恐慌。他们倒都想到并尝试用电子格式销售图书,但效果令人失望,而现在,谷歌出现了,要征服这块原本属于他们的领地。这次会议最后,现场屏幕上出现了一句达尔文的名言:“能够生存下来的物种,并不是那些最强壮的,也不是那些最聪明的,而是对变化反应最快的

一向善于在废墟中寻找机会的谷歌现在成了守门人,他们能接触到传统出版业从业者接触不到的读者,而读者也能通过他们找到自己想要的图书。对任何人而言,用搜索引擎来营销图书都是一个合情合理的结果。问题是,即将被摧毁的旧体系从业者该怎么办?

20051019日,几个主要出版商,包括Simon & Schusterthe Penguin GroupMcGraw Hill——都是谷歌图书搜索计划的合作者——起诉了这家公司,企图停止这项计划。出版商不反对谷歌帮助他们卖新书,但是他们声称此计划的图书馆部分是违法的。他们宣称谷歌“大规模、全方位、有系统地复制仍处于版权保护期的所有图书”,侵犯了出版商的权益,他们要求谷歌停止进一步的拷贝,销毁谷歌图书馆计划已扫描的所有未经授权的版权作品。美国作家协会也在同时提出诉讼。

些作者和出版商从谷歌的计划里看到的是邪恶而不是天才。美国作家协会和五大出版公司的意见很简单:为什么谷歌不把它的广告收入(如果有的话)分给那些版权所有者?为什么谷歌在扫描任何书之前都不用经过版权所有者的同意?

这些出版商过去是,现在也是谷歌图书搜索计划的忠实搭档。他们仍然希望谷歌能扫描他们在印的图书,搜索引擎是读者的探索工具,能够搜索到图书的扫描版本对出版商是有利的。那些获得美国出版商协会支持的出版商陷入两难:他们在支持谷歌图书搜索计划的同时又不得不反对它。


遭遇围剿


进入数码时代之后,经历崎岖发展道路的美国版权法遭遇越来越多的尴尬和棘手场面。司法认定的核心是,谷歌的本意是要扫描数百万册受版权保护的图书,却不准备向版权所有者付钱或获得许可。所有书籍中约20%是处于公有领域的,其中包括那些从来没有版权的书,如政府出版物及版权期已终止的作品,如《白鲸》。约10%的书受版权保护且可购买到——主要是通过出版社这一渠道,其中有许多书谷歌已与出版社达成协议,允许他们扫描并展示作品的部分内容。

还有大量的书属于第三种情况:仍受版权保护或状况不明,但已绝版。这部分书籍是谷歌和出版商冲突的核心。Google全文扫描这些书,但只在网络上提供“片段”以供搜索和查阅(搜索结果只出现搜索条目和它前后大约20)。版权法从未禁止过一本受保护作品被部分“复制”;长期以来,学者和记者们都可凭正当使用原则来引用受版权保护的素材。出现在谷歌图书网站的大量版权资料从正当使用的角度来说,是合法的。

然而,原告们声称,复制全文这一行为就意味着侵权,即使用户只能看到部分内容。“他们正未经许可逐字扫描上百万册受版权保护的图书,”谷歌做的事对他们而言非常有利可图,他们应该为此付钱。能帮助图书销售这一理由并不充分。如果你为一本书拍了一部电影,那可能会刺激销量,但这也不意味着你不用得到许可。谷歌应该掏钱。我们在互联网上应该找到提高这些东西价值的方法,但谷歌现在把这些书放到那里的价值是零。”美国作家协会掌门保罗·艾肯说。

谷歌坚持对这些版权著作的使用是“变革性”的:谷歌的数据库将一本书变成了一个全新的产品。按国内网络观察家洪波的说法,“如果图书都这样被数字化了,当我们需要焚书坑儒的时候,我们拿什么来焚?而且岂不是焚也白焚?

使用正当与否的关键是这种从实体向虚拟的转变,谷歌复制了书中的所有内容,对原告出版商和作者们来说,听上去的确是有点不正当的意味,但目前情况却是,谷歌的行动已经超出了传统规范的领域,从本质上来说,保护旧版权体系的法律无法判定谷歌违法与否。

由于版权法的不透明,以及1998年美国法案规定的延伸保护,人们根本就不清楚到底有哪些书仍处于版权期。在作者去世或出版商倒闭之后,版权状况就更加不明朗。斯坦福大学图书馆以1964年为限画了条线,禁止谷歌扫描之后的大多数作品。

其他几家合作图书馆也对事态发展不尽满意。那些收藏绝版图书的非赢利机构,是作为一项公益事业来建立自己的收藏库的。谷歌将图书数码化的目的却没那么纯粹,这些公共财富将为这家私营公司牟利。当然,作为回报,谷歌捐助1.25亿美元建立了一个非赢利的图书版权档案,给每个公共和大学图书馆安装一台终端机。但是这些机器不能下载或打印文本。图书馆如果想全权使用谷歌图书搜索计划的内容,将不得不付费获得权限,每次下载也一样要付费。这就是说,已拥有最丰富收藏的图书馆也将成为向他们的用户提供谷歌服务的人。

哈佛是谷歌最初的合作者之一,但是哈佛图书馆馆长、数字计划的狂热支持者罗伯特·达恩顿(他的著作包括广为人知的《屠猫记——法国文化史钩沉》)也决定停止向谷歌提供版权图书。就像他写的:“将藏书数字化,以不能方便大众获得知识的方式售卖产品……把互联网变成了私有化公共领域知识的工具。”

哈佛、斯坦福和牛津已禁止谷歌再扫描其收藏图书中受版权保护的作品,扫描的范围如今只限于那些处于公有领域的书籍。还有的图书馆在继续自己与谷歌的全面合作,并对达恩顿的立场持批评态度。


谷歌真的能保持“不作恶”吗?


谷歌负责扫描图书馆藏书计划的工程总监丹·克兰西拒绝透露他们在图书计划上的开支,但通过2005年微软的一项计划,我们能作出大致推算。微软当时宣布,他们将耗资250万美元扫描收藏在不列颠图书馆的一万本非版权期图书。这样算下来,扫描3200万本书将耗资8亿美元,对这家市值近2000亿的公司来说,是一笔庞大但算不上奢侈的花销。

但真正的挑战并不是扫描,而是如何在一本书中找出确实有趣的人和事。“如何对网站进行分级是我们的搜索中最重要的部分——看有多少其他网站用链接的方式指向目标网站。但是,图书不是网络的组成部分,这里就存在巨大的挑战,即如何把握图书之间的关联性。” 丹·克兰西说。

不过,基本搜索规则仍然是有效的。搜索《黑暗的心》立刻就能指向约瑟夫·康拉德的小说。“黑暗的心”这几个字都很普通,但搜索过程并不像听上去那么简单,就像克兰西说的:“如果你搜索‘黑暗的心’,我们必须知道你要找的是小说,而不是一本关于心脏病手术照明条件的书。那么,我们该怎么做?我们做的就是在分级时让某些词比另一些词更重要。标题可能比内容更说明问题,所以我们会加重标题的分量。你也能看到其他人搜索过什么,所以如果每个人搜索‘黑暗的心’都点击了小说,我们能计算出你可能的意图。”

分级搜索最重要的数据可能来自谷歌数据库中指向具体某本书的网页链接。(比如,如果在图书搜索网站关于短语‘克林顿自传’的链接将用户带到了《我的生活》这本书,那么使用同样搜索词的用户有很高的概率是希望得到相同的结果)。“我们刚刚开始,我们需要将这些书网络化,我们需要人们来帮助我们做这些事。” 克兰西说。

除了英语图书,谷歌数据库中还包含许多其他语言的书,但现在这些书必须能用原文搜索。在这个公司的网站上,现在已经有一个简陋的翻译功能,这个功能以后某一天可能被强化,用户通过一个按钮就能用另一种语言获得书中的内容。“就民主化问题来说,人们希望获得信息,”克兰西说。在阿拉伯世界,每年只有很少的书能被翻译成本地语言。可以查阅并使用世界其他地方的书,将带来强有力的效果。“我们谈的是一个世界性的数码图书馆,我希望这个世界能越来越好,所以还需要时间,到那时,任何坐在一台终端前的人都能轻易获得全世界的信息。”

这种救世主即将降临的言论不能掩盖谷歌图书搜索的核心目的:这是一门生意。谷歌曾保证不会在图书搜索的页面旁展示广告,但是在搜索结果旁,这家公司的的确确在卖广告:将链接指向出版商图书。谷歌在图书项目中赚钱的取向目前看来并不明显,但这家公司总是能从最初看上去根本不赚钱的风险项目中赚到大把的钱,这也是举世皆知的。

谷歌到底在建一个什么样的图书馆?它肯定大得惊人。谷歌声称用户现在能全文搜索大约700万本书。但有报告说,这个网站现已收藏1000万本书。用不了多久,他们的收藏将超过不列颠图书馆的1380万卷图书,而后者收藏这么多书用了几个世纪的时间。最终,他们会把我们这个星球上所有图书馆中3200万种藏书收入囊中。

但不同于这些数量巨大、被禁锢在大建筑物中的实体图书,谷歌是无处不在的。

谈到目前谷歌遭遇的困境,美国出版人协会主席帕特·施罗德说:“本质上来说,这是一个商业交易,找到办法解决它,这件事会结束的。谷歌将获得这些版权,并和版权持有者达成交易。”美国作家协会担心的是谷歌网站上的非法拷贝会泄露给公众,所以这个组织在安全措施问题上会坚守立场(悲哀的是,对作者和出版商们来说,对他们作品的需求从来没有强烈到会产生严重的盗版问题)。至于从网站获得的收益,谷歌同意与出版商分享收入;出版商将按他们的书被查看的次数得到酬金。谷歌可以选择用现金或广告交换来进行支付。

但是一个对当事各方有利的协议却不一定对公众有利。斯坦福法律学院的教授、以CC协议在互联网上出版《自由文化》一书的劳伦斯·莱斯格说:“按互联网速度进行的商业行为不会花几年时间来等待诉讼被解决。谷歌应该有能力解决这个问题,得到许可并重新开始扫描所有图书馆中的版权资料,对出版商而言,如果谷歌给了他们想要的一切,这就产生了一个实用先例。如果不是一个合法判例,那么没有他们的准许就没人有权扫描这些资料。他们就赢了。问题是,即使达成对谷歌和出版商都有利的协议,对其他任何人来说,却是个坏消息。”

“如果谷歌对出版业说,我们会付钱。那意味着每个想进入该领域的人都必须说,我们会付钱。出版业会比法律赋予他们的获得更多,因为谷歌需要在这个案子里占据主动。而和解将为这个领域的新加入者设置巨大的障碍。”莱斯格说。

换言之,如果达成和解,将把谷歌与竞争者们隔离开,因为这家公司已证明自己在搜索领域独一无二的地位。如果谷歌与出版业的纠纷解决了,就会为这个市场的后来者设置巨大障碍,根本不会产生竞争。最大的危险就在这里。

谷歌非正式的公司座右铭“不作恶”很容易遭到嘲笑,但谷歌图书搜索计划的确不邪恶,虽然,它也并不高尚。谷歌之所以成功,是因为他们开发出了极好的产品;从道德角度评判这家公司的行为是愚蠢的。它的股东们无疑不会这么做。

正为自己在新时代能存活下来而奋斗的出版商和作家们,最好也不要将他们和谷歌间的冲突描绘为正义与邪恶之争。

在这场纷争中,几家主要的出版商都既是谷歌的合作者,又是敌对者,之所以如此,深层原因是,在这个已数码化的世界,他们孤注一掷,希望能把握住目前还握在手中的筹码。

与这些奉行鸵鸟主义的出版商相比,毫无疑问,谷歌能为这些书带来更多关注。

但如何解决来自各方的担忧呢?面对谷歌这样一个庞然大物,谁能保证未来它不会失控?而且,就图书计划的许多方面来说,它做也不尽如人意,图书分类的业余和马虎就令很多严谨的学人怒不可遏、忧心忡忡。面对自己身处其中的这个飞速变化、但前路茫茫的世界,他们担忧地发出质疑:“这个庞然大物还会继续吗?它还应该继续吗?”

没有评论: