古籍翻印,我们想要的究竟是什么? 什么叫“‘字库级’古籍翻印”?   古籍刻本的字库级翻印  字库级古籍翻印的优点  让现代科技为中国传统文化服务  字库影印无需打字,清晰度超影印,原理  古籍字库级翻印优于影印技术详解  当代古籍翻印技术  已有影印,为何还要搞“字库级翻印”?

 

当代古籍翻印技术述评

   古籍翻印的目的是什么?无论何时何地,翻印的目的只应当是阅读。现在古籍翻印,从纯内容角度看,已经完全没有从前“翻刻”的那种必要了,需要时直接排版印刷即可。明眼人一看便知,现在的古籍翻印,更多地是从美术性的角度出发。例如“古色古香”、“善本再造”、“复兴中国汉学文化”等,保留原汁原味似乎更重要。而从纯粹出版的角度来说,翻印古籍必须要有市场,否则难以为继。
   版本。从中国印刷史上(尤其是现在出版界的情况)看,翻印版无论从内容、出版、印刷、校勘、质量等,各方面都选用质量上乘者。当然,对于某些有特殊用途的出版物,即便质量不好,由于有需求,也翻印。不过,在古代,古籍翻印是带校勘的新刻居多。本技术(字库级古籍翻印)主要针对保存质量不太好,但是却又希望原版呈现,且有一定的市场的古籍。
   现在古籍翻印,如果古籍保存质量不错,翻印又无更高追求,直接简单影印即可。如果说位图不适宜高分辨率激光印字机,那么高质量的扫描位图,通过PS或AI,也可转矢量。如果原稿质量高,无论图像是否矢量化,也无论使用什么样的纸(包括低价纸),似乎都能达到让人们接受的质量。不过高质量保存下来的古籍毕竟少,想翻印的保存质量不一定高,或者说,有市场前景的,保存质量可能不高;或者说,保存质量高的,但凡有需要,早就被翻完了,剩下的只是那些不好处理的。
   用影印这种技术含量比较低的技术,那当然也得承担:
   1,不可能增加校勘学的内容(例如更适合当代人的标点符号等);
   2,对破损之处无法处理;
   3,影印只是原封不动地照搬,不宜进行任何加工处理,尽管有些可能更适于现代读者(如新版式);
   4,一般情况下,现代印刷技术,影印出版都不是最价廉物美,即,影印价高质低,当代印刷技术(当然是桌面排版印刷技术),其核心特点却是质高价低。毫无疑问,所有市场销售的出版物都是现代印刷技术的产物。对这些印品,现代印刷技术当然要能做到质高价低。
   作为一种技术创新,其目的是为了解决技术难题。本技术创新目的是解决以下几方面问题:
   1,高质量翻印低质量保存(不宜影印)的古籍。应当认识到,古籍善本的保存不仅仅是一个保存的问题,还有一个当初的印刷质量、数量问题。囿于手工印刷技术的关系,印品即便同版甚至同页的不同部位,质量也有高低不匀,更何况经过长年保存后。因此说,古籍之中善本是少数,更量大面广的古籍实际处于“保存不善”境地。但保存质量与其存在价值并非正比,大批有价值的古籍亟待开发利用。对于这部分保存不善的古籍,显然不可能影印,而既要想保存原著的风格(字),又想用高质量的现代印刷,必须技术创新来解决;
   2,用原著的字,用最接近于原著的艺术质量恢复原著;
   3,在恢复性制作该古籍的同时,擷取到古籍中保存下来的字体;
   4,增加校勘、补错坏之处、加标点、是当地根据现代人需求修动版式;
   5,克服仅仅制作常规字库难以避免对原著有所改动的问题;
   6,与此同时还要兼容先前申请的古籍书法字库专利技术和最大多数编辑软件。
   古籍翻印制版和现代印刷技术的矛盾之处。这个矛盾就是影印和排印之间的矛盾。按照现代印刷的一般规律,如欲影印品质量好,须用4+色(4+色:4色为基础,有些用了更多色次,特标记为4+色,下同)印刷。值得注意的是,即便翻拍的是黑白墨线(例如文字)稿,要想达到高质量影印,同样得使用4+色。单黑色,即便古籍原稿的质量较高,但难免个别页有浓淡不匀,这反映在单色上就会造成质量严重降低。与此同时,用彩色印还需用好纸(例如铜版纸),只有使用了好纸才能将4+色的印刷效果表达出来,低价纸,由于质量问题(掉粉等),极不利4+色印的效果。而4+色印,必制4+块版,上版、下版、调试等较之单色印价格大幅度提升。好纸加小批量,最终价格较之单色印要高很多。从而失去市场竞争力。
   古籍为什么要翻印?翻印古籍继承的是什么?如果仅是内容,现在采用通用型字体印刷轻而易举。增加校勘、标点等也一并解决。实际上中国文化就是这样流传下来的。为什么要搞“善本再造”工程?政府还要搞古籍翻印补贴?古籍翻印明显是要继承相关的美术资源。说白了,这里的美术主要是指字体(当然也有版式和古代印刷技术和工艺所形成的装帧感觉(开本方式、纸张感觉、柔软程度等等))。若从现在具备的技术水平来看,版式装帧等,通过现代印刷技术都不难达到。现所欠缺的只是没有古籍刻本的字体。而古籍刻本字体最难处在于,雕版古籍都是一书一字体,各个版本之间都不相同。
   造纸、活字——中国四大发明中有关印刷的就占了两项。加上古籍字体这一大笔原则上属于中国书法艺术的遗产,怎样才能既顺利转化成为当代数字技术,又有声有色,有实际价值地应用于当今社会生活?说实话,古籍翻印只是一个由头,真正的议题是古籍文化因素的继承。即便仅仅是古籍翻印,其前提前提条件是,无论如何,古籍翻印已经不可能走回头路的是:

       
  1. 人工抄书。一则现代人已经不再具备古人手书书法的水平,如果能够达到古人手书书法水平者,二则其书法作品的价格一般作为出版单位是难以接受的。况且古籍的数量浩如烟海,如此数量的书籍字体,根本是现代人所不可能完成的任务。
  2.    
  3. 人工刻字。手工刻字不可再行的主要原因和上述问题属于同一性质的问题。如果再回头采用手工翻刻,不仅仅是技术水平上已经达不到了,人力、物力、美观、书法等到最终成本核算,都不能达到具有市场可能性的地步。
  4.    
  5. 原始印刷技术;原始印刷技术指的是采用手工刷墨,手工敷纸,手工刷印。这种印刷技术作为某种纪念品的制作或许还有一点可能,但绝对不是国家提倡和“善本再造”所需要的东西。
  6.    
  7. 制品的市场售价。同样道理,传统手工印刷的价格也是现在市场所不能接受的价格;其实书籍在古代也应当属于一定程度的奢侈品。一般人家是买不起的。所以才有很多“抄书”的故事。现在书籍不贵了,主要应当归功于现代印刷技术和大工业的社会生产。

现在必须接受的技术条件是:

       
  1. 现代印刷技术;为什么必须接受现代印刷技术?这是废话,因为现在所有的印刷技术都是现代化的,而且将来会更加现代化。所谓接受现代化印刷技术,指的就是:PS制版、现代纸张(非仿古类,因为你需要市场销售,而不是礼品)、大型印刷机、现代化装订机、当然还有相关的装订设计、开本、运输、销售方式等等。
  2.    
  3. 桌面排版系统;既然是现代化印刷技术,当然就得采用计算机桌面排版系统,当然也就包括各种排版软件,从ADOBE的indesign、PS、AI、Corel的DRAE还有其他的相关程序。
  4.    
  5. 真正彻底地传承古籍特点;很显然,古籍具有内容和形式两个方面,从前由于技术条件所限,我们一直比较注意的是内容方面而忽略了形式方面。实际上,作为“古籍”,其代表性的外形主要是字体。我们中国文化,讲究一个传承有序。近代以来,几乎所有传承的古籍都以现代字体印刷,除非是专业人员,根本不可能了解哪个版本是从何而来的。实际上,即便是专业工作者,在没有明确提示的条件下,也很难准确了解哪个新印的出版物的渊源是什么。
  6.    
  7. 翻印古籍要有校勘技术成果的体现(甚至更进一步地利用网络和数据库进行校勘);
  8.    
  9. 重新排版(而不是一成不变地一直使用原版版式和书籍装帧格式);
  10.    
  11. 能利用廉价纸张从而占领市场

古籍翻印技术的关键问题是字体。

       
  1. 古籍字体之形成。汉字古籍刻本字体的形成,都是通过书法家现在纸上书写好底稿之后,反向粘到刻板上,然后刻字师携刻成版,再由印刷师刷墨、敷纸、刷印成单页后装订成册。这里面一个重要问题是:所有的刻本字体都是手书者逐字书写的(想想就知道,那时候能够手书上版的水平,较之现在“书法家”不低),也就是说,尽管可能我们现在的人看上去都差不多(实际上从字体设计的角度看差距蛮大),但这些都是“书法作品”。书法作品和活字的差别就相当大了(另文论述)。
  2.    
  3. 古籍字体之意义。字体是所印作品的直接的外形表达。很显然,它不同于版式、纸张、印刷等等,字体更具有内在品质。古籍字体乃当今字库之渊薮。从现今书法艺术发展趋势来看,书法已经从日用艺术转为纯艺术。从价格角度来看,纯艺术品的价格,即便只是达到了一般可以销售的价格,其价格体系也在一般商品之上几倍。因此,从将来发展看,今后如果想得到高质量字库字体,从购买艺术品价格上看,已经付不起了,一般普通人艺术水平又不够。而不花钱,又高质量的字库,只有古籍中存在,不仅存在,而且是量大面广的存在,而且不需付费。
  4.    
  5. 古籍字体的传统传承方式。古代对优秀版本字库字体的传承方式是影刻。但由于影刻是手工操作,误差大,与原版之间的差距更大。实际上,影刻所能起到的较好作用并不是继承了字体的艺术气氛,而是免除了校勘之劳,可以在最大限度上避免错漏(当然,如果原著错漏也没着)。
  6.    
  7. 怎样令古籍字体够适应现代印刷技术?这是本技术的主要诉求对象。技术进步,技术升级,从近几十年来看,我们一直都在依赖计算机技术。而计算机技术源于西方。因此,我们对计算机技术的引进、消化、吸收、应用就成为了最重要的方式。除非在将来计算机编程能够进入到伪码时代,否则我们自己搞不出像indesign那样的排版程序。实际上现在几乎所有的排版公司使用的都是ADOBE公司的程序,方正排版因为加密与保密的关系,为政府机关所必须,而在不涉及保密内容的单位,还是多采用西文工具。例如打字社、誊印社等,都是如此,极少见到方正排版。而无论使用那种排版工具,字体格式都是最重要的基础材料来源。所以说,我们的字库方式,必须要与现代排版工具相融合。
  8.    
  9. 较之普通的ttf、otf字库技术,更深入的是“古籍字库的多重复字字库技术”(以下简称该种字库为“多重复字字库”或“多重复字字库技术”)。 多重复字字库技术的关键是利用字库技术,生成、编辑原著中可以生成为字库的所有汉字,并通过字库技术校勘或重排原著,在此过程中,将原著中的坏字、残损字、缺字等,根据汉字书法行气的原则进行修补、补齐,然后再将该文档变生成矢量格式文档。这种文件对于古籍而言既是可编辑的,同时又是完全原风格字体的。
  10.    
  11. 采用多重复字字库排印古籍的优势。当下印书最佳选择为采用桌面编辑系统排版,采用现代制版技术制版印刷。这样做质高价低。从理论上说,如果能够将古籍原著扫描,通过PS或AI,都可以生成矢量格式的文档,从而避免低质量的位图制版。然而也很明显,这种方式无法顺利地编辑文档,无法增加标点符号,无法增加校勘内容等等。如果既要想应用矢量文件格式,又要可以编辑,那就只有一个方法,使用计算机字库。而从现行的计算机字库来看,一个字符一个码位,而古籍却是手抄本性质,理论上具有行气。书法不同于字库,书法行气是不能割断的。一旦行气割断,那么该原著的书法风格也就不存在了。既要保存原著的书法风格,又要矢量化,还要内容可编辑,还要适应所有的西方开发的文字编辑工具,这几个点就要求了该技术只能在字库上想办法。多重复字字库的生成和制作。技术过程:
  12.    
         
    1. 程序名:多重复字字库编辑程序。主要功能:自动切分字符图像;矢量跟踪生成字库;列表显示字符图像(选中后,读索引表完成);挑选字符(修改该txt的字符码位);
    2.    
    3. 特点:多重复字字库编辑程序通过创建了一套对应的txt文件和ttf文件,从而达到了能够全字符编辑古籍善本。它创建了一个独特定义编码的ttf字库,如仅显示双字节文本,应当正常无误,如用系统缺省字体显示四字节Utf8文档,不能表达正常含义。同样地,它也改变了utf8文档,该文档,在任何编辑程序当中都可以正常显示,但如用系统缺省字体显示内容不可理解。
    4.    
    5. 多重复字分析工作分为不同的步骤。按步骤完成,目的在于先完成搜集所有重复字符,然后对残损字才能用全局资源支持修补。
    6.    
    7. 在多重复字分析之前,应已具备该古籍内容的相关txt文本(可不与原文完全一致的校勘稿),只是讹错处要有标记,以便后续工作。txt字和《编览器》类似,可以更换显示字体、颜色、大小、透明度等。
    8.    
    9. 扫描某页残损古籍生成位图图像后,在多重复字字库分析器中打开该位图。进行页面字符分割后,每个字都得到相应的图像glyph。
    10.    
    11. 根据校勘好的txt文档原著字生成ttf。页面分析器根据txt,将所有字符进入ttf相对应的码位。根据列宽进入到相关的matric设置(如需侧旋技术,只是更换鼠标,行气直接使用原著即可)。注意列宽设定中会产生的问题,例如手抄本的列宽不稳定且有弯曲,应有专门的列宽设定,否则进入matric的时候,给定会出问题。
    12.    
    13. 根据txt,进入unicode。重复字从第二枚开始,直接取双字节字后续四字节字(避错:绕过已使用的四字节字,仅占用本古籍字体字库用不到的)符码位索引放置重复字glyph。对有多重复者,自动放置并新建索引,不必建立同型字的集合分类(原因:1,同型不同型不好说,需要细致分类,不是这里需要的工作;2,不便于自动处理;3,如果手工处理,劳动量太大),采用连续续写的方式处理即可。关键是要再写入ttf的同时,重写txt。可在程序内置一写txt块,待保存的时候统一写入。
    14.    
    15. 在有残损的地方,鼠标选中该残损的索引字(选中状态:索引字被选中后,实际页面字符图像亦被选中(当然,如果该字符图像残损(未入字)或空(没什么可选中的))),该字所有已录入的重复字会根据该双字节字编码的索引,全部调出来,形成一个活动页面,可供编辑者挑选。此时显示调用的是新字库,而不是原来的索引字,因为索引字可能不存在这个字。
    16.    
    17. 重复字符是在超大字符集字库中交错写就的,当你打开经过多重复字字库程序编辑过的该古籍的txt,若用一普通超大字符集字库显示,它是一串读不懂含义的文档。但是如果用该古籍的字库显示,不仅不会有任何问题了,更亮的是,该古籍和原著几乎一模一样,每个重复字都不同,但造型、样式、行气等都和原著气韵一致。
    18.    
    19. 对于不清晰或损坏的字,选中该字,编辑器给出该字库所有可供挑选的重复字,编辑者可据此对原著予以替换(注意行气贯通)。值得注意的是,编辑者须根据行气需要选字,替换原来的txt字。如果该处无字,也可以用此方法予以“补写”。但是编辑需要有一定的书法知识或水平。
    20.    
    21. 作为一种用于特殊用途的编码系统,多重复字字库只可能正确使用于特定古籍的出版编辑。它并不用于信息交流。这样做的目的就是让多重复字字库可与现在流行的文字编辑出版程序所接受。
    22.    
    23. 之所以这样做的目的是,利用现有的成熟的编辑工具,全面兼容对传统古籍善本的编辑出版工作。
    24.    
    25. 多重复字字库和古籍字库(左旋90°技术)的相互关系。这两者之间不仅不矛盾,而且有深刻的契合性。本技术的目的就是和既要实现能够全面利用现有技术成果对中文古籍原汁原味的顺利编辑。现有技术成果者,侧旋字库也算其中之一。实际上,如果不用字库侧旋技术,是难以达到对传统书法进行精准编辑的。
  13. 多重复字字库的特殊编码方式。我们现在使用的unicode编码。汉字是双字节字,unicode分配给汉字的双字节字码位大约有20928 + 6592(扩展A)= 27520个(不包括非汉字字符)。尽管中文在Unicode中所占码位最多,但对于中文古籍多重复字字库字来说,也还是太小了,根本不可能够。这倒不仅因为历代古籍中的异体字无可限量(由于一书一体的关系,考虑到一般同一书内同一字的异体写法不可能过多,而各种不同的书籍中可以自定义),而是针对书法性质的字体,每一个字都有N多种写法,因而绝对不够,不要说上千万字的四库全书等超大部头著作,就仅三国水浒红楼梦等单本也远不够用。关键点是,字库作为一种索引图形集,在书法汉字中,需要二次索引。首先是unicode,在这里unicode成为了二次索引,通过unicode对每一个字建立一索引。对于每一个不同样式写法的字,都作为二次索引的进入点,在该字码位下,再建一个索引(字名+页数+行数+字数),这样就可以将所有的不同样式、不同书写质量的字纳入其中了。其次,为和所有排版工具对接,因而虽然是二次索引,但在实际索引过程中,还应按照超大字符集方式,为每个字在总索引中建立一个保存位置,也就是说,实际上二次索引只是一个外在的数据库性质的索引表,字符的数据信息却在unicode编码的字库中。这种字库,在建立之时,应当同时建立二次索引并规定其在unicode编码表中的位置。这种字库必须由专用字库编辑程序进行修改。因为字库一旦有所修改,二次索引表也得同时修改。二次索引表可以是txt,其实,更好的方式是二进制txt文档阅读方式,该文档必须由特殊的程序予以书写和阅读,这样不容易出错。应当承认,这是一种专用于中文古籍再造的专用字库,它需要专用的输入法(为了更方便地直接展示所需要输入的字符图像),该输入法通过阅读多重复字字库信息文件,直接读懂每个字的相关数据库位置,从而在打字、选择字符图像的过程中不至出错。与此同时还需要专用的字库编辑工具(为了更加便捷地从原著图像中获取和编辑字符图像)。其较为特殊的是,多重复字字库可以和编辑软件工具完美配合,它们就像使用一般的ttf一样使用这种字库。当然,其他软件也能使用这种字库,但是可能仅仅能够使用标准双字节unicode部分,而进入到字索引部分就乱了。从一般的字库编辑程序来看也是这样,双字节字部分正常,但是到了四字节部分则全部都是乱的。因为他们不会去读页面索引文件。
  14. 应当承认,我们现在通用的双字节字本身也是“二次索引”的方式,即前一个字节是单字节字的编码位置,第二个字节也相当于一个单字节字的编码位置。由此可知,单字节字只有232(即256)个码位;双字节字为256×256=65536个码位(即unicode)。Unicode实际上也是一种二次索引的方式:1,通用;2,量少(256个)。如果我们的多重复字字库还是采用单字节索引方式显然不够。例如三国演义(近60万字)前几个字的重复情况:曰:8764;之:7874;不:6733;人:5119;軍:4937;兵:4685;大:4186。如果是4字节字,量上就没什么问题了。现在的善本再造或古籍整理,动辄几千万字。总量没错,但是作为抄书或刻书人来说,这个量就忒大了,恐怕一人一生难以完成。所以,作为该体的多重复字字库,如此巨大没多大意义。我们需要的是,某人(或曰某种单一风格)的字体一共有多少字?我想大概不会太多,否则这本书就刻不出来了。
  15. 量的问题解决之后,是保存方式的问题。如果建立新的字体格式(譬如以每个双字节字为字头进行保存),可能会出现现行通用的排版工具中多种排版软件不识别不接受的问题。因此,该四字节字应借用超大字符集的四字节字的字符集(因为现在几乎所有能用到的文字出版编辑程序都识别它),通过“乱写”技术,将一个超大字符集的四字节字字库改造为多重复字字库的四字节字字库。一本书(这里主要指的是那种某一个版本,同一个版次,同一人书写,同一人刻制的那种。或者是稍大部头的同一人的手抄本),基本上够了
  16. 多重复字字库技术的使用过程。前文说过,使用多重复字字库技术的主要针对对象是保存质量不好的古籍。这种古籍一般在内容上不会有太多别处难觅的东西。所以对其来说,也是可以校勘核定的。因此,首先需要操作的是内容核定与校勘厘定。要在固定文本上适用多重复字字库技术(多重复字字库技术不负责校勘方面的问题)。当然,其中必然会有相当一部分的字不行了(这部份的字当然也是提取不出来的(包括加校勘部分的字也一样,标点符号等另行安排,譬如置于其边上等等))。这时候当然系统会给出一个缺省的标准unicode编码的宋体字,编辑(要懂一点书法、刻字等相关艺术)将鼠标选中该字,此时候鼠标右下方(或其他方便的地方)应当出现所有在该字索引下的从各页搜集到的多重复字字库字样,编辑根据该处处的需要,选一个,将原来的位置填充上,形成新的稿本。此时需要注意的是,这种选择不是随便一选即可,而是要根据上下文行气、动态、原著风格等情况选一个适宜的字置于该处。实际上等于编辑在为该书缺失的字从原著当中再找一个。找到之后,还可以根据具体情况进行控制点级的编辑。说白了,就等于你再抄写一遍该书,只是不用你动笔,而是需要你的目光如炬。这就是多重复字字库对保存品相欠佳古籍的修复作用。
  17. 多重复字字库使用方式对排版程序的特殊要求,对于使用通用排版软件的,在输入法上要有所改进(方便调用重复性的多重复字字库字)。这实际上是一个重新对输入法编程的问题。关于输入法编程,主要问题是字符图像的调用。传统输入法都是调用unicode编码的字符集(缺省为系统字(宋体)),现在的问题是:1,不再调用系统字,而是指定字库;2,在调用unicode编码字符集的时候,要通过Cmap表,重新定位选字;3,由于所选字会比较多,要有一个分类性质的东西,以便使用者挑选,例如可以根据长宽比排序;4,既然是选字,字盘应当大些,而不要像现在输入法那样只有一行;
  18. 采用多重复字字库制作PDF。多重复字字库制作PDF应当没有问题(因为将来发稿需要转为PDF格式(当然也不反对转为eps格式))。多重复字字库技术的核心就是将原有的位图转为矢量图,从而解决掉晒PS版的问题。因而当然应当支持PDF。不过,实际上用不到带含义的PDF,完全可以“转曲”后发。
  19. 多重复字字库的网上传播问题(没有考虑网络传播问题,因为是私有性质)
  20. 多重复字字库的数据库调用问题(数据库调用主要是指校勘文本的时候的数据库问题)