首页 >> 跨学科 >> 动态
黄伟 梁君英:语言研究的科学化与国际化
2017年03月26日 09:01 来源:光明日报 作者:黄伟 梁君英 字号

内容摘要:计量语言学以真实语言材料为研究对象,广泛借鉴相关学科,特别是自然科学领域的研究方法,通过对语言现象的精确测量、观察、模拟、建模与解释,寻求语言现象背后的数理规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。造成这种局面的原因,并不能完全归结于研究对象(汉语及汉语方言为主)的不同,以及国际学术语言是英语的语言藩篱,也存在研究理念与研究方法的问题。采用计量语言学的一般方法开展汉语相关研究,加强了汉语描写与解释的客观性、精确性和科学性,有助于验证语言结构模式与规律的跨语言普适性。我们借鉴系统科学、计算机科学、仿真学、心理学等学科的研究方法开展跨学科语言研究,得到了一些采用传统语言研究方法或计量语言学一般方法难以发现的规律。

关键词:汉语;学科;定律;计量语言学;依存距离;研究方法;文本;分布;认知;方法论

作者简介:

  随着海量数据在传统艺术与人文领域的广泛应用,数字人文作为一种新的方法论正流行开来。这也使得语言学这些传统学科不得不开始思考,如何利用数据来解决过去难以解决或解决得不够好的问题——

  语言研究的科学化与国际化

    

  计量语言学以真实语言材料为研究对象,广泛借鉴相关学科,特别是自然科学领域的研究方法,通过对语言现象的精确测量、观察、模拟、建模与解释,寻求语言现象背后的数理规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。

  【语言论坛】

  长久以来,语言学一直被认为是典型的人文社会学科。随着现代语言学的发展,人们逐渐认识到,人类语言现象应该通过类似自然科学的一般方法进行研究,使语言学向生命与认知科学转向,实现语言学的科学化。

  语言学是研究语言结构模式与演化规律的学科。对“模式”与“规律”的探求是语言学与其他科学的共同目标。然而,光有科学的目标还远远不够。演绎与归纳、定性与定量、描写与解释、假设与检验、仿真与建模等现代科学在方法论上的共同特征,正是传统语言学所欠缺的。

  与此同时,中国语言学也面临着国际化问题。我们在国际语言学学术共同体中的声音还很微弱,对探求人类语言普遍规律方面的贡献也有限。造成这种局面的原因,并不能完全归结于研究对象(汉语及汉语方言为主)的不同,以及国际学术语言是英语的语言藩篱,也存在研究理念与研究方法的问题。

  因此,使用科学的方法研究语言的结构模式与演化规律是实现语言学科学化和中国语言学国际化的基本途径。

  虽然语言学具有悠久的计量研究传统,现代语言学的许多分支学科也离不开语言数据与计量方法的使用,但是,直接将结构模式与演化规律的发现作为目标,并以现代科学手段进行研究的,是计量语言学。

  2011年,国家社会科学基金首次设立跨学科类重大项目,以刘海涛为首席专家的“现代汉语计量语言学研究”获得资助。近几年来,通过积极开展交叉学科语言研究,课题组在语言研究科学化与国际化方面取得了一些新进展。

  语言规律

  从文本中来,到文本中去

  文本是集中体现人类文明的重要资源。发现文本中蕴含的规律,是计量语言学的根本任务。语言学中的齐普夫定律精确描述了文本中词的出现频次与其排序之间的幂律关系。虽然这个定律在不同语言中具有很强的普适性,但是人们一直无法清楚地解释这种幂律关系的成因。

  我们通过计算机仿真与大规模语料库研究发现,层级结构能够产生幂律分布,齐普夫定律阐述的词频序关系实质上是词的层级结构特征在线性句子中的分布规律。

  定律不仅能够描述与解释现象,还应该能够进行预测,即应用定律解决实际问题。我们在研究现代汉语新闻文本词频分布规律时发现,齐普夫定律不仅在描述不同文本的词频分布方面具有普适性,而且该定律中的参数能够细分新闻报道与评论,基于词频的计量指标能够区别口语与书面语文本。在对中国当代文学中的新诗与散文进行词汇层面的计量研究中发现:散文高频词的描述对象呈现多样化特征,而新诗的高频词则表现出较强的时代性;散文的词汇丰富程度明显低于新诗;两类文本在名词、代词的使用频次上表现出的相似性可能是新诗“散文性”的根源。

  计量语言学中已经发现了一些定律或建立了一些模型,但多数以描写印欧语言为主。它们在人类语言中的普适性还需要通过更多的语言材料进行检验。我们在对现代汉语口语和书面语中的语言单位进行详尽考察后发现,描述语言单位长度分布规律的齐普夫-阿列克谢耶夫模型同样适用于描述汉语的结构长度分布。这不仅说明人类语言在单位长度分布方面具有普遍性,也揭示出不同语言通往普遍性的具体手段具有多样性。

  从真实语言现象中发现具有普适性的语言定律,将这些定律协同起来,可以构建科学哲学意义上的语言学理论体系。我们借鉴印欧语言词汇协同系统,以语言结构基本单位的4个核心属性(词长、多义度、频率和多文度)为元素,并首次引入配价概念,不仅成功地构建了一个汉语词汇协同子系统模型,也为构拟基于配价与依存关系的句法协同子系统奠定了基础。

  采用计量语言学的一般方法开展汉语相关研究,加强了汉语描写与解释的客观性、精确性和科学性,有助于验证语言结构模式与规律的跨语言普适性。

分享到: 0 转载请注明来源:中国社会科学网 (责编:张雨楠)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们