巴莫曲布嫫等:口头传统专业元数据标准定制:边界作业与数字共同体|论文 发布日期:2019-03-14   作者:巴莫曲布嫫   点击数:1168  

  巴莫曲布嫫等:口头传统专业元数据标准定制:边界作业与数字共同体|论文



[摘要]立足于国家社会科学基金重大项目“中国少数民族口头传统专题数据库建设:口头传统元数据标准建设”的工作实际,以中国社会科学院民族文学研究所科研人员多年来的田野研究实践与操作经验为依据,讨论利用信息和传播技术保护各民族非物质文化遗产,促进口头传统研究数字化建档,以及实现资源整合和信息共享的多种可能性及其途径;进而围绕“边界作业”理念和“数字共同体”观念,探讨构筑相关社区、群体和个人(传承人和实践者)以及科研机构、政府部门等多重主体协同行动的功能性互补机制,以及当前面临的主要挑战。

[关键词]口头传统;专业元数据;元数据标准;数字共同体;边界作业

在中国社会科学院民族文学研究所(以下简称“民文所”或“IEL”)的学科建设进程中,以中国少数民族文学“资料库/媒资库/档案库”为学术资源依托,以“口头传统田野研究基地”为信息增长点,以“中国民族文学网”(中英文)为传播交流平台的整体发展计划,实施于2000年,简称为“‘资源/基地/网络’三位一体方略”,至今依然是民文所科研事业发展规划的主要工作任务。

一、口头传统研究与民文所学科发展

19世纪50年代,口头文学(oral literature)研究在哈佛大学兴起,至20世纪60年代,该校成为口头传统这一跨学科领域的旗舰,其间历经柴尔德(Francis Child)、基特里奇(George L.Kittredge)、帕里(Milman Parry)、洛德(Albert B.Lord)、纳吉(Gregory Nagy)、埃尔默(Davi F.Elmer)六代学者的传承,学术传统已逾160年,并以其得天独厚的“帕里口头文学特藏”执牛耳。口头传统研究以历史湮远的“荷马问题”为滥觞,并且由于承接了古典学领域中的核心话语,因此学科的基本问题——书面性与口头性的讨论——在人文学术领地具有方法论上的革新意义。“口承-书写大分野”的辩论在西方知识界引发了一场前所未有的反思,贯穿了整个20世纪下半叶,几乎所有的人文学科均有涉入。口头传统研究阵营的理论和方法论,也影响到了世界一百五十多种语言传统的研究,成果汗牛充栋。

口头传统研究进入中国则是在20世纪90年代中后期。当时,供职于民文所的数位学者,同时也是中国民俗学之父钟敬文先生的亲炙弟子,如朝戈金、尹虎彬、巴莫曲布嫫等专攻史诗研究的学者相继负笈西行,前往欧洲和北美的民俗学研究重镇(芬兰的国际民俗学者暑期学校、哈佛大学、密苏里大学等地)访学,与航柯(Lauri O.Honko)、弗里(John M.Foley)、纳吉、哈维拉赫提(Lauri Harvilahti)等口头传统研究大家相遇。此后一段时期内,他们陆续将国外几代学者传承的口头传统研究及其理论和方法论代表性成果译介到了国内,并于2003年9月在国内率先成立了第一家“口头传统研究中心”,就此开始了口头传统研究理论方法论的本土化实践。

二十多年来,西方口头诗学的理论成果,尤其是20世纪民俗学“三大学派”即口头程式理论(the Oral-Formulaic Theory)、表演理论/演述理论(the Performance Theory)和民族志诗学(the Ethnopoetics)的系统译介,以及在中国的本土化实践对中国口头传统研究和口头诗学理论建设起到了不可低估的作用。民文所学者的理论思考建立在学术史反思与批评的基础上,在若干环节取得了一定的成绩,引领了国内这一领域的学术实践和方法论创新。例如,对史诗句法的分析模型的创用,对既有文本的田野“再认证”工作模型的建立;对民间文学文本制作中的“格式化”问题及其种种弊端进行反思,进而在田野研究中归总出“五个在场”的基本学术预设和田野操作框架;运用口头传统的理论视域重新审视古代经典,生发出新的解读和阐释,同时利用古典学的方法和成就反观活形态口头传统演述的内涵和意蕴;对特定演述人或演述人群体的长期追踪和精细描摹及隐藏其后的制度化保障探究;在音声文档的整理、收藏和数字化处理方面,逐步建立起符合学术新理念和信息化建设要求的实践路径和工作机制。口头传统学科力倡和践行“本土化实践”,系列成果得到中外学者普遍肯定,影响已超出民间文艺学领域(刘铁梁语),改变了中国民俗学学科格局和走势,并在整体上赋予口头传统研究以中国族群文化多样性的特色。简而言之,口头传统学科在中国的发展,与在美国的成长相似,主要以代表性学者为中心,通过学者之间的代际传承来壮大研究者队伍,最终实现学术共同体的成长。其间,口头传统的数字化建档也成为少数民族文学学科建设的重要方向。

国外的口头传统资料建档起步较早,美国哈佛大学的帕里口头文学特藏及其希腊研究中的数字人文项目、密苏里大学研究中心的通道项目、印第安纳大学的传统音乐档案库、美国国会图书馆民众生活中心档案库、芬兰文学学会民俗档案库、韩国学中央研究院的口碑文学大系等建设时间长、理念新、资金充足,尤其是在数据标准的研制上大都有IT专业团队长期的对口支持。这些平行案例为本课题的设计和实施提供了可资参照的前鉴和思路。但由于语言环境、数据标准、软硬件环境和概念工具的大相径庭,尚难以与中国多民族、多语言、多样态的口头传统资源及其体现的文化多样性榫接。

从国家层面上看,文化部民族民间文艺发展中心和中国民间文艺家协会启动数据库建设已经多年,取得了阶段性成果。这两家的数据库建设皆基于20世纪50年代中期以来的民间文学艺术资料搜集整理工作中所产出的文字资料,前者基于民间文学三套集成的省卷本,后者则基于县卷本,二者都可视作文本资料数据库。据初步了解和交流,两家采用的数据标准和著录规则也各不相同,前者为自行定制且多次修改,后者与汉王公司联合开发;两家单位共同面对的难题依然出在元数据标准的设计理念和著录规则滞后于建库行动,尤其是20世纪的田野资料采录方法缺乏文本与语境之间的关联,加之口头文化表现形式的标准化维度和方法论模型尚未建立起来,大量数据录入后出现信息冗余,检索精度低,研究型的应用效率也当受到一定钳制。

民文所通过“中国少数民族文学研究资料库”(2000-2010,实体库)、“中国少数民族文学媒体资源库(2007-2011,媒资库)”及“中国少数民族口头传统音影图文档案库”(2011-至今,数字资源库)的持续性建设,以在西部地区建立“口头传统田野研究基地”为依托,以民文所建设的学科门户网站“中国民族文学网”为平台,采取“以演述为中心”的民俗学田野工作原则,将文本、图片、音频和视频同时纳入内容建设的工作框架,同时考量语境、传承、接受等文化关联,某些档案资料具有唯一性,在国内外也有一定的影响。就数字化建档实践而言,民文所在中国史诗学和神话学领域的两个专题数据集即“蒙古英雄史诗大系”(2012-2014)和“中国神话母题W编目”(2014-2015)已取得初步成果。尽管民文所在信息化建设中取得了一定的实绩,但长期以来,资料库/档案库/媒资库的建设都在专业元数据标准的定制和使用上受多种因素的制约而进展缓慢,尤其是中国社会科学院并无从事计算机科学与技术的部门建置和人力资源,数据库建设水平普遍偏低,专业领域的标准与标准化研究力量薄弱,这便构成民文所通过国家社科基金寻找合作方的立项诉求,以利接续民文所前期的信息化建设努力并探索可持续发展的学术空间。

二、口头传统专业元数据标准建设进程

国家社会科学基金重大项目“中国少数民族口头传统专题数据库建设:口头传统元数据标准建设”(批准号16ZDA160),于2016年11月获得立项,由中国社会科学院民族文学研究所与中国科学院计算机网络信息中心(以下简称“CNIC”)共同实施,巴莫曲布嫫担任首席专家。该项目属于科研型专用类标准研究与定制,堪称口头传统专题数据库建设的基础之基础;秉持“标准在先,建库在后”的理念和原则而展开,下设三个子课题:

(1)“口头传统元数据标准建设”(胡良霖主持);(2)“口头传统的田野采集规范与数字化建档规程”(吴晓东主持);(3)“口头传统数据资源描述模型与著录规则”(王宪昭主持)。

自课题启动以来,口头传统研究与IT技术两个专业领域的专家学者一同攻关,协同创新科研机制,各子课题组积极响应,参与组建了元数据专项联合研发核心工作小组。随着信息传播技术的急速发展和成本降低,数字采集和存贮已经变得比以往便利了许多,但如何选择、采集、处理、上载、存档、管理、下载、迁移、分析、挖掘、利用并可视化这些数据都是数字人文时代不得不面对的重要课题。因此,制定数据采集、汇交、整合、质控、审编、获取以及共享的标准体系是本课题的基本任务。在实施和推进过程中,课题组面对的一个问题是标准研究的基本对象抑或出发点到底是什么?

田野工作是口头传统研究的必经之路,也是数据库建设的关键环节。民文所田野研究基地建设的基本理念可以形象地概括为“活鱼是要在水中看的”(刘魁立语)。这些年来,民文所提倡和坚持的基本技术路线是围绕特定的口头文类、传承人群体、文本与语境,以及与口头文化密切相关的民俗生活事象,进行长期的形态学和类型学的定点追踪研究,通过科学地观察、忠实地记录和实证地分析研究,以契合学科所要求的历时性研究与共时性观察的两相结合,从学理上探索史诗传承的内在规律,进而从口头诗学的理论层面探究各民族口头文化的表达形式,实现钟敬文提出的从“目治”向“耳治”的范式转换,更新口头传统的文本制作观念。依托本所多年来的田野实践和实地调查经验,针对当下中国境内少数民族活形态口头传统及其多样化表现形式考量现场数字采集作业的规范和流程,在田野采集原则层面则遵循“以演述为中心”的民俗学立场;在具体操作方法上,美国语言人类学家海默斯(Dell Hymes)的言说模型(the SPEAKING Model)和巴莫曲布嫫提出的“‘五个在场’田野研究模型”皆聚焦于自然语境中的交流事件(events of communication)和参与式观察,利用现代数字手段系统、全面记录民众的口头传统实践,为本课题最终确定为“以事件为中心”奠定了学理基础。然而,从“以演述为中心”到“以事件为中心”,课题组却花费了极高的时间成本来加以论证和反复探讨。应当说,这一工作原则的确立,虽几经周折(从演述到文类,从传承人到文本),但最终使得多次陷入僵局的徘徊局面豁然开朗,因而确保了从定制、采集和著录三个环节设计并研发口头传统元数据标准方案的推进。

随着各子课题的实施和推进,课题组原有工作重心也随着元数据标准定制方向的确立发生了一些新移转,尤其是在学术优势和科研力量的整合上出现了新格局。课题组在研究计划的推进中,及时吸纳青年学者、博士后及博士研究生加盟,一则充实了团队力量,二则通过课题的开展培养有志于从事数据库建设的人才。一年多来,各子课题组以协同方式开展了各自的研究计划,除完成元数据标准定制方案的阶段性成果外,还编制了系列化中外口头传统数据库案例和教科文组织关联文献结集专档,另有多篇学术论文发表。在此过程中,民文所与中科院团队竭诚攻关,在科技与人文的深度融合中培养了协同增效的工作氛围,大家亲密无间地开展跨学科的边界作业,这乃是课题组最大的收获之一。具体而言,从实地调研计划的实施到文献整理和分析,从海外在线平行数据库调研到专题化的资料学建设,从参与学术会议到“引进来、走出去”的中外学术交流,从适时举办课题组工作会议到保持微群工作坊在线讨论,以多重进路推进了课题任务的实施。2017年形成口头传统元数据标准定制方案,

2018年完成口头传统元数据标准方案的修改、完善和审定—这一总体进度安排基本实现。以下,分述各子课题的进展情况。

1

子课题一:“口头传统元数据标准建设”

元数据(metadata)最为广泛传播的定义是“关于数据的数据”(data about data),这是一个高度抽象的概念;在具体应用过程中,应根据实际描述对象的特点和具体使用来明确并细化。对于口头传统研究而言,口头传统元数据就是关于口头传统研究对象的描述数据,这些描述信息应当客观全面记录口头传统研究对象的性理特征,并根据数据生命周期提供数字化采集、著录、建档的技术支持,确保数据的保存、发现、获取和使用。课题组以metadata(元数据)为关键词检索国际标准化组织概念数据库,有798个涉及元数据的标准资料,632个元数据标准,有166个标准对“元数据”进行了定义。正是在前期预研工作基础上,课题组根据数据管理和应用的实际需求,调研了国内外相关元数据标准

50余种,选取其中20余种相关标准进行整理分析,总结现有元数据的特点和不适用之处。从梳理元数据定义、元数据特点和分类出发,调研国外标准(按照标准规范与描述方法、核心元数据、领域元数据、博物馆元数据、图书馆元数据、档案元数据分类进行分析)及国家标准和业内规范,同时借鉴中国科学院专业领域数据标准和国家数字图书馆等国内的相关标准,重点分析研究方法和元数据构成,总结各元数据的特点和对本课题研究的借鉴意义,在此基础上形成了《国内外元数据标准调研报告》。

在标准调研基础上,课题组从口头研究对象和载体入手展开分析。口头研究对象甚为多样,各具特点。除了基本的学科分类外,口头传统研究的对象还包括承载这些口头表现形式的文化空间和民俗生活实践,以及传承人和实践者群体,涉及相关社区、群体或个人的价值观和文化认同。口头传统研究的资源对象最终会以文本、图片、音频和视频等多元媒体形式呈现。结合这些特点,以及当前应用需求及未来应用潜在趋势等,课题组采用文献调研、案例分析、专家访问等研究方法,与口头传统领域的专家学者进行了多次对话和交流,以深入理解口头传统元数据描述对象的存在形式及其特点,并归纳出田野研究的特征和科研人员的需求;同时,课题组还实地走访了中央电视台音像资料馆、国家图书馆“中国记忆”项目组,赴韩国学中央研究院调研数据库建设情况,参加海峡两岸学科信息化交流会、中国科学数据大会等学术会议,充分调研和吸取国内外的成功经验;课题组在前两者基础上结合元数据构建理论,对资料进行深入分析,以信息化手段梳理元数据标准的基本结构,总结归纳了元数据标准描述的核心要素,优化了口头传统元数据标准体系的结构,确定了口头传统元数据这一研究对象的描述模型以及描述方法,最终设计出以口头传统事件为中心,集合5类专有元数据和11类通用元数据的口头元数据标准体系,完成《口头传统元数据标准方案》的定制。

图1.口头传统元数据标准体系图

《口头传统元数据标准方案》历经多次修改和完善,最终确定“以事件为中心”,并设计了16类元数据,255个描述元素,其中专有元数据5类,分别为文本、传承人、语境、演述、受众;通用元数据11类,其中必选项9类,包括题名、资源标识符、参与者、介质载体、地点、时间、语言、责任与权利、获取与归档;可选项2类,即民俗实物、关联和其他(见图1)。专有元数据包括85个描述元素,通用元数据包括170个描述元素。每个描述元素采用元素名称、英文标识、使用方式、使用频率、数据类型等描述方法。

2

子课题二:“口头传统的田野采集规范与数字化建档规程”

“口头传统元数据标准建设”旨在为当下乃至未来的田野研究提供专业标准和数据环境,在本课题执行过程中,需要充分考量信息传播技术的发展与科研人员开展数字化采集(音声、影像、图片、文本、实物)和数据著录的相关性、互连性及一致性。因此,与子课题一“口头传统元数据标准建设”和子课题三“口头传统数据资源描述模型与著录规则”实现衔接是一个重要前提。在相关专家的建议下,课题组需要厘清的基本问题包括但不限于:涉及文本、图片、音频和视频的相关著录规则有哪些?按专题进行数字化归集和数据集建档的数据管理与元数据标准有哪些?元数据登记及元数据登记互操作性、元数据内容一致性标准是什么?与ISO数据标准和ICA著录规则的兼容性如何?口头传统数据规范化采集、整理、入库和服务的专业标准、数据规范化整合的标准、数据资源的共享模式如何确立?最后,在尊重相关方权益(传承人与实践者、受众、田野采集者、田野协力者、数据使用人、研究机构、数字共同体、公共文化部门等等)的基础上如何开放共享等问题。

在课题推进过程中,课题组主要成员深度参与了文化部民族民间文艺发展中心主持的“中国史诗百部工程”的组织实施工作。该工程针对活形态史诗传统设定的相关数据采集标准和建档方案具有前瞻性和参考价值。与此同时,课题组在与国家图书馆“中国记忆”项目组的工作讨论会和相关培训工作中,也听取了该项目组参与组织“国家级非物质文化遗产代表性项目代表性传承人抢救记录工程”的经验和做法。在数字化归集和数据集建档的数据管理方面,我们重点参考了《UCLA社会数据收集与归档管理规范(2011)》,中科院团队则负责研究ISO/TC46/SC11文件管理元数据系列标准。此外,在韩国实地调研中,课题组就田野采集及其数据标准进行了重点调研;回国后,课题组辅助人员宋贞子博士将《韩国口碑文学大系——改订•增补事业<口碑文学现场调查及采录指南>》译为中文,为课题的推进提供了实操性参考。

《牛津英语字典》将“建档”(documentation)定义为信息的积累、分类和传播;或以这种方式收集的资料。在数字技术高度发达的今天,课题组针对的口头传统建档主要是利用摄影、录音、录像等现代技术手段记录、保存、呈现、获取口头传统表现形式和传统实践的证据提供过程;同时高度关注以书写、制图、标记、注解等任何传统方式进行记录的专业行为。专业建档因学术参与而有别于社区内部保存和传播其传统知识和传统文化表现形式的传统方式。课题组借鉴教科文组织《保护非物质文化遗产公约》所的定义的“保护”(safeguarding)及其针对非遗的动态性和活态性所建立的“过程性保护”及其操作框架,基于“过程性建档”的基本理念来设计和编制田野数据采集方案。我们所强调的“过程性建档”尤为关键,因其往往是传承圈之外的人们获取口头传统存续力现状和口头交流实践的基本方式。因此,以田野研究为出发点,并以交流事件为中心的数据采集作业及其多层面和多维度(图文影音、实物、文本与语境、演述人及其受众、人文生态、风物遗址、自然空间、纪念地等)的建档流程,势必需要制定过程性的田野采集规范和数字化建档规程,并保证持续性更新和不间断的内容维护。

口头传统田野研究要求我们要从采集与语境两个维度来高度关注民俗学的“证据提供”(documentation),也就是说要纳入田野研究的一系列操作性环节,包括田野作业(fieldwork)、访谈(interview)、田野笔记(field notes)、田野誊录(transcribing)、田野报告(reporting)、田野迻译(translating)、田野的文本化(textualizing)到最后形成一个系统的田野归档(archiving,包括田野文献识别、获取、处理、存储和传播等),才能最终支撑起被呈现、被阐释的文本。在田野实地工作中,只有经过这一完整的、有步骤的、充满细节的工作进程,才能最终提供并支撑一种能够反映口头传统特质的,以演述为中心的民俗学文本及其文本化制作流程。与此同时,我们还将事先知情同意原则、权利让渡的获取,以及建档涉及的学术伦理纳入了田野采集规范的编制范围。

截至目前,课题组按计划配合元数据标准研发各阶段的工作,针对标准应用环节(数字化建档人员),根据口头传统研究专业元数据标准和著录规则的定制需求,研究、设计和编制符合数据质量控制要求的田野采集标准和资料建档规范,初步完成《口头传统田野数字采集工作手册》,包括《口头传统田野调查问卷》《民族志访谈问题表》《口头传统摄影、拍摄、录音、实物采集技术标准》、《田野资料著录规范、操作规程》《事先知情同意书》《权利让渡书》。下一步将参照学科田野作业规范和相关工作模型,组织学科内专家、标准专家和数据库专家协同制定《口头传统的田野采集规范与数字化建档规程》(含口头传统数据数字采集质量管理规范与入库验收标准),达成对田野数字采集的质量进行有效地控制和管理的目标。

3

子课题三:“口头传统数据资源描述模型与著录规则”

本子课题要解决的主要问题是数据著录质量的控制和管理,针对采集→入库→集成的流程中的著录细则形成过程性方案。课题组配合子课题组一定制《口头传统元数据标准方案》和子课题组二定制《口头传统的田野采集规范与数字化建档规程》,负责定制具体应用的数据描述模型、著录细则、操作规程和验证办法,同时组织学科内专家、标准专家和数据库专家协同编制著录工作流程方案,以达成对数据质量进行有效控制和易于管理的目标。本子课题采纳的研究方法主要以分析音影图文档案的国家标准、行业标准及相关的著录规范为线索,同时参考国内外相关数据库的描述型元数据标准及其采纳的著录工具、既有经验和实例。

在实地调研和工作讨论中,我们先后对中央电视台音像资料馆的音视频著录工作、国家图书馆“中国记忆”项目的视频信息著录方案,以及韩国学中央研究院“韩国口碑文学大系”的著录规则进行了重点研究。基于强调数据资源描述与语境的关联,在课题执行中,我们重点参考了国际档案理事会专家组(EGAD)基于档案原则记录描述的新标准《语境中的记录:概念模型》(RiC-CM1.0)。该标准旨在协调、整合并建立在现有的四个标准ISAD(G)、ISAAR(CPF)、ISDF、ISDIAH的基础上。EGAD还通过已建立的和新兴的通信技术,特别是比更成熟的标记和数据库技术更具表现力的语义技术,且越来越多地用于在不同的描述系统中互连描述,以提供跨文化遗产领域的资源集成访问。国内方面,我们参考了国家标准《GB/T3792.4-2009文献著录第4部分:非书资料》、档案行业标准《DA/T18-1999

档案著录规则》,国家图书馆的图像、音频、视频资源元数据规范和著录规则,以及《GY/T202.1-2004、GY/T202.2-2016广播电视音像资料编目规范》。然而,从多级描述到多维描述,我们还需高度关注口头传统研究的特色数据涉及语言、文类、形式、结构、母题、功能、意义、程式、典型场景、故事范型、音声范型等多方面的学理尺度,同时还需对接数据的语境关联和特定的文化表现形式与文化空间要素,包括演述人、受众及多元行动方。因此,在课题实施过程中,我们特别关注口头传统多元化信息的著录、处理与互通问题,同时将多语种的拉丁转写和汉文翻译誊录的数据化流程纳入元数据标准建制环节和试验环节。

在课题执行进程中,课题组配合元数据标准研发各阶段的工作,针对标准应用环节(多元化的用户对象),确定口头传统研究专业元数据标准和著录规则的定制需求,研究、设计和编制符合数据质量控制要求的数据描述模型样本和著录规则;参照学科基本研究范式和相关的描述—分析模型,已初步编制出《口头传统数据描述标准及操作规程》《口头传统数据质量控制规范》《口头传统研究数据著录细目》。下一步,课题组将在田野验证和数字化建档的基础上选择数据种类和数据量,厘定数据描述模型的多重维度,确定著录细则要求。著录细则将基于子课题一定制的《口头传统元数据标准方案》进行编制,涉及5类专用元数据(85个描述元素)和11类通用元数据(170个描述元素),依托中国科学院计算机网络信息中心课题组搭建的实验环境加以测试、校正、改进和完善,以提升数据整合质量和数据集成管理技术指标,最终完成《口头传统描述规范和著录细则》,为推出高质量的专题化、系列化和精品化的描述性数据集样本奠定基础。

以上是三个子课题组的研究进展情况。2018年8月和9月,课题组围绕《口头传统元数据标准方案》的适用性和可操作性,前往内蒙古鄂尔多斯伊金霍洛旗和贵州省紫云县开展田野验证工作。8月调研主要围绕成吉思汗祭典之“苏德勒大祭”(入秋祭)和成吉思汗祭歌而展开,按“事件前—事件中—事件后”三个环节组织参与式采录工作。9月调研,则以贵州麻山苗族口头传统为重点,采取随机调研方法。幸运的是,课题组既遇到了保穆(仪式师)黄小华老人主持的三次小型治疗仪式,同时也赶上了大型丧葬仪式的重要进程——守灵唱丧——由众多东郎参与的《亚鲁王》史诗演述。两次验证调研,一北一南,对于课题组认识仪式与口头传统的关系,以及如何在不同的仪式场合中记录口头传统文类都提供了有益的参考,有效地推动了本课题对于口头传统元数据标准的完善。在进入田野验证之前,以及在整个田野调查过程中,信息著录的可操作性一直都是反复被讨论的重要关节,而验证相关元数据标准在田野工作中使用效度反过来也会校正乃至修正相关标准的定制。结合两次田野验证工作来看,课题组也从具体口头传统的数字化建档实践中形成了如下共识:(1)使用现代录音、录像设备的技术实践应当纳入朝向未来的口头传统数字化建档的能力培训范畴。(2)实现田野采录和信息著录的同步操作,在田野调查点完成相关信息著录是口头传统数字化建档的重要工作步骤。(3)田野实践是不断修正、补充和完善信息著录工作规则的必要检验过程,同时也是口头传统标准体系建设过程中的必要环节。

下一步,课题组将采用国家标准研制的“三稿两审”的标准工作流程对口头传统元数据进行严格的学术把关和质量把关,通过原型实验系统验证,对元数据标准方案进行修改完善,组织专家进行审核,正式发布并推广实施。具体实验方案包括:“以数据库为方向”,以“重整合、易检索”为原则,结合民文所信息化建设的实际,并以既有的“四库五站”工作流程为基础,搭建数据库管理/网络发布的测试环境,通过数据植入和整合测试元数据标准的应用效能,遴选部分音影图文数据进行样本化的处理、存储、传输、响应、反馈等阶段的测试、校验和完善元数据标准,达成少数民族口头传统音影图文资料跨媒体交互检索的目的。

三、从边界作业到数字共同体:问题与挑战

本课题的挑战主要来自两个方面:一是针对活形态口头传统田野研究的专业元数据标准建设在国内外尚无前例。课题组在标准调研中发现大多数的元数据标准是基于既有的模拟资源、数字资源或网络资源而设定,尤其是许多标准其实是数字化标准,缺乏成熟、通用的异构数据融合管理技术;二是由科研人员个体来完成这些数据的采集、著录和更新,所需时间成本和精力对于每一个人来说都是难以承受的。

在本课题的开题报告会上,许多专家学者提出了诸多建设性的意见。针对著录标准问题,中国人民大学信息资源管理学院梁继红提出,元数据标准建设对于这样一个高端定位的研究型数据库来说是非常关键的工作,建议用数字人文领域提供的一些知识挖掘工具来处理部分著录工作,档案学可以为著录规则提供一些借鉴。中国国家图书馆“中国记忆”项目负责人田苗认为元数据标准的制定要考虑

将来的应用领域以及与其他资源库的融合,在描述著录力度上要考虑经济成本效率,建议项目开发移动端应用。

课题实施以来,中国人民大学安小米专门就标准方案的设计提出两方面的书面指导意见:一是三个子课题间的逻辑结构关系待进一步斟酌,三个子课题活动目标及对象和任务不同,标准内容不同并非简单的定制、校验和应用关系顺序关系,如何产生综合集成整体效应?二是标准研究与一般的学术研究不同,如何将学术研究与标准工作研究统一起来确有难度;而预期成果和研究流程及方法不同,标准研究周期较长,立项时预期研究成果过多,需明确重大的关键性问题,尤其是对标准类知识生产有重大影响的突出性研究成果当是首当其冲的权重问题。尤其是现有国际标准如何与中国多民族、多语言、多样态的口头传统资源及其体现的文化多样性榫接,标准的适用性与适应型改进原则,新增数据元素及考虑因素,亦当涉及语言资源管理的ISO标准及中国实践。口头传统数据资源作为人文学术和科研领域的特色数据确有其专业规定性。安小米还建议课题组以数字连续性管理与知识服务联动机制构建为指导,考虑前瞻性、前沿性、先进性、实用性,标志性成果当以入库前田野数字采集规程和入库后著录细则为导向;以大数据思维和手段服务科研;考量新的数字人文建构和少数民族口头传统的本体建构及诠释;在新的话语规则构建中注重话语权与数据库建设的学术伦理问题。这些建议是我们认识问题所在和采取改进措施的良策。

我们认为,参考国际FAIR(Findable,Accessible,Interoperable,Reusable)数据原则框架,建立科研型资源—特色数据—项目—事件—文本—语境—传承人—受众(社区、族群)—专家学者—田野协力人—研究机构—公众社会之间的多维互动关联,最终通过数据集建档和可视化在线平台对这些关系进行映射和呈现,以资源共享模式搭建动态的知识管理和分享平台,确实是我们应当面对的挑战。但就目前的课题实施进度和经费支持而言,尚难做到采用知识挖掘工具、开发移动端设备和建设可视化管理平台。这些任务将纳入今后的数据库建设工作中加以实现。

在口头传统研究领域,科技与人文的协同攻关早有前例。埃尔默以哈佛大学“米尔曼•帕里口头文学特藏”的历史沿革、主要成就及晚近发展为主线,从以下三个方面讨论了口头史诗传统的数字化建档实践及其在多学科研究领域的潜在应用价值:其一,技术创新与田野作业的问题导向;其二,田野资料的组织管理、数字化进程及在线数据库的创建;其三,方法论的挑战与建设数字语料库的可能途径。其中,田野作业的问题意识与创新技术手段的学理性讨论,也正是帕里留给口头传统数字化建档的生动案例。课题组成员郭翠潇对西方学界提出的“计算民俗学”这一新概念进行了追踪和考察。坦盖利尼(Timothy R.Tangherlini)等人认为以计算机算法为研究方法的民俗研究属于计算民俗学;其方法论涉及民俗研究的全过程和民俗档案的全生命周期,事关从采集、立档、存储、分类、索引、检索,到呈现、利用、分析解释乃至分析工具的开发。在信息和传播技术高速发展的今天,“计算民俗学”无疑大有用武之地,对中国民间文学、民俗学及少数民族文学的数字化建档和数据库建设也有可资参考的实践论价值。口头传统档案库建设面临的主要问题包括但不限于以下挑战:(1)极度缺乏兼通民俗学理论方法论和信息技术的边界作业人才;(2)相关民俗文化资源数据库开放程度不够,可资利用的全文检索语料库不多;(3)专业元数据标准定制滞后于数据库建设及其带来的研究型数据质量不高;(4)人文和科技的跨学科深度融合不足,基于学科专业要求的数字人文项目缺乏。在大数据时代,这些瓶颈问题尤其是科际整合、边界作业、数字共同体意识当引起学界和政府相关部门的重视,相关的理论方法论讨论也亟待从认识论和实践论两个层面切实展开。

本课题是中国社会科学院和中国科学院两个下属专业机构首次开展正式合作,也就是我们所强调的基于功能性互补的跨学科边界作业。诚如朝戈金指出的那样,“这种跨领域的合作,也体现在中国社会科学院民族文学研究所和中国科学院计算机网络信息中心。我们发展了一个新的合作项目,要展开学科互设意义上的边界作业,在一些方面大大推进、分步建成具有中国本土多样化的少数民族专题数据库。”应当说,21世纪以来,以民文所引领的史诗研究在口头传统的学术格局中形成了全新的定位,并在本土化实践中从偏重民间文学的文本研究走向口头诗学的田野研究。而中国史诗学的制度化经营,口头传统专业化的主导原则和实践路径也在推动学科发展的过程中超越了既有边界,使人文学术的知识生产呈现出跨界重组的动态图景。中科院课题组成员提出基于科学数据对象(SDO)进行一体化设计的完整解决方案,分别从分布式数据汇聚、集成组织管理和统一数据共享服务三个层面进行了自下而上的框架体系设计、关键技术研究和系统化的研发设计。这种体系建设思路对本课题今后的拓展也有参照价值。

从田野工作到资料搜集,从个案研究到理论阐释,口头传统研究作为一个学术共同体都需要形成一个能让大多数学者协同努力的学术范式,同时要立足于多民族的文化传统来思考理论和方法论建构,尤其是要考虑到口头和非物质文化遗产保护是一个系统化工程,其间学术共同体也当肩负起自己的历史使命和学术责任。在田野基地的建设中,我们提出并实践了与地方政府、社区、传承人和民众进行多元化协作的工作方式;在科研项目中,我们也同样重视与各地学术机构和专家学者的长期合作。那么,在信息化建设中,我们的资料库和网络建设也同样需要广开思路,打破地区与机构的条块分割,以积极、主动、平等的姿态,实现更全面、更广泛的数字合作,从而参与知识共同体的建设。

“知识中的伙伴关系”及其重要性确实事关重大。值得述及的是,韩中日三国会议——“亚洲口传文学档案网络”于2011年在韩国学中央研究院成功召开,标志着口头传统领域区域性知识共同体的出现。2018年5月,本课题组赴韩国访问交流,在韩国学中央研究院、韩国国立中央博物馆、韩国国立民俗博物馆就口头文学的元数据标准和数据库建设开展了调研和座谈,取得了丰厚的教益:(1)对口头传统专题数据库建设的原则和技术路线有了更清晰的认识。韩国的口碑文学大系第二期历时10年,从田野采录到数据库建设的每一步都形成了规范的操作指南,元数据标准贯穿始终,具有很高的借鉴价值。(2)在元数据标准定制方面,韩方的先行实践结果表明,元数据著录的实操可行性重要性高于元数据的“完备”,元数据项不可过于繁琐。(3)对于专题数据库而言,首先追求的是高质量、专业的数据而不是体量大、质量低的数据。(4)坚持开放、共享是数据库建设的重要原则,应整合资源、打破壁垒,同时面向学术界和公众,最大限度实现资料的价值。(5)在数字时代,应将田野调查资料首先建成数据库,再从中甄选出一部分出版成纸质书籍。这一点对中国正在推进的很多民间文学调查出版项目极具借鉴价值。2018年10月10日至12日,韩国学中央研究院语文生活史研究所主办的“2018年数字时代的口碑文学”国际学术会议在韩国京畿道城南市召开。来自韩国、中国、芬兰、肯尼亚、罗马尼亚等国的学者和硕博研究生,就“韩国口碑文学大系的数字化编纂”“数字化平台的《韩国口碑文学大系》改订•增补”“韩国口碑文学大系改订•增补事业-田野调查团概要”“芬兰的口头传统搜集与计算民俗学的发展”“肯尼亚的口头文类的数字化”“罗马尼亚的口头文学搜集”“口头传统专业元数据标准定制”“作为国家记忆的口头传统”等8个主题展开了富有成效的研讨交流;其间,本课题组“以事件为中心”的元数据标准定制方案也得到了国际同行的高度认可。

综上所述,人文社会科学的合作在今天已经产生了新的意义。“合作”不能仅仅停留在机构之间、学者之间或机构与学者之间,“合作”也不单单是学术交流活动所能涵盖的。举凡涉及田野作业的学科,如民族学、社会学、人类学、民俗学等,都要面对相关的族群和社区,以及那里的民众和他们的文化利益,参与其间的学者和机构都应思考合作与对话中的多向性互惠、学术伦理及知识共同体的社会义务。因此,在文化自主权和文化权利保护的向度上讲,我们也应该争取更广泛的社会参与。那么,在学术共同体与知识共同体之间,我们需要构建“数字共同体”,才能在非物质文化遗产保护工作中形成合力,在信息化建设中发展知识生产的协作伙伴关系,创建新型的信息共享模式。

小结

我们认为,至关重要的问题是研究范式的转换和知识观念的更新。通过“数字共同体”重建口头传统研究的“知识共同体”就要思考“为什么”和“怎么样”的问题,而不仅仅只是在文化属性上界定“是什么”的问题,这正是学术共同体的任务。自1980年建所以来,民文所学者在一些重要的口头文类及其文化传承方面做出了IEL这个学术共同体应有的努力和贡献;老中青三代学者的探索在某种意义上也揭示了中国口头传统的差异性、多样性和复杂性。由此,我们深感任何一个单独的研究机构及其学术力量都显然不足以胜任对之进行纵深的全面搜集、保存、保护和研究。但是,正是这种实际工作中的“距离”给IEL与CNIC两个团队留下了创造性的空间,那就是按照“资料库/基地/网络”三位一体的发展规划,逐步构建中国少数民族文学研究的“数字共同体”,以制度化的科际合作和边界作业拓展出空间更为广阔的知识共同体。诚然,除了具体的技术问题、民间文化知识产权问题、知识生产的学术伦理问题,以及信息化标准问题需要慎重应对之外,我们面对的核心挑战便是创造一种新型的知识生产观念——构建口头传统信息的公共领地,使之成为维系世界文化多样性和人类创造力的共享资源和共同财富。那么,从“学术共同体”到“数字共同体”再到“知识共同体”,其间的距离并非一步之遥;在科技与人文深度融合的今天,基于“数字共同体”的“边界作业”更应发挥其不可或缺的关键作用。

文章载于《民间文化论坛》2018第6期

【注释请参见原文】

End

作者简介:巴莫曲布嫫,中国社会科学院民族文学研究所研究员;郭翠潇,中国社会科学院民族文学研究所助理研究员;高瑜蔚,中国科学院计算机网络信息中心工程师;宋贞子,中国社会科学院民族文学研究所博士后流动站研究者;张建军,中国社会科学院研究生院少数民族文学系博士研究生。

文章推荐:龙晓添(广西师范大学)

图文编辑:吴莲莲(广西师范大学)