nba下注

当前位置: nba下注 > 法学论文 > > 文章 当前位置: 法学论文 > 文章

基于百万书籍的文化影响力研究论文

时间: 2021-09-18 02:58:00    点击: 112次    来源:nba下注 - 小 + 大

大数据中的百年社会学
——基于百万书籍的文化影响力研究
提要: 本文基于谷歌图书的最新语料库(811万种书籍,8613亿词汇),通过设计、检索社会学的学科关键词以获得历年词频数据,对19世纪中期以来社会学的发展进行追踪,并藉此展示、分析和诠释了社会学的学科轨迹、名家大师、理论流派、领域热点、分析方法,以及中国社会学在文化影响力维度上的百年变迁,同时对建立“社会组学”进行了展望。本研究为利用大数据进行人文社科研究提供了初步经验。
关键词: 大数据社会学史 文化组学 社会组学 文化影响力
学人简介: 陈云松,南京大学社会学院
文献来源:nba下注 一、导言
“大数据”的应运而生,既给商业、管理和公共行政带来了众多机遇,提出了诸多课题,同时正在全球社会科学界、人文学界引发讨论的热潮。早在数年前,哈佛的加里·金在在展望政治学的未来50年时就预言,随着大数据的出现和使用,整个社会科学研究的实证基础将会出现重大的变化,甚至会加速定性与定量研究的大融合(King,2009)。国内学界也对大数据给社会科学领域带来的机遇充满信心(沈浩、黄晓兰,2013)。不过,“大数据”概念虽热,但社会科学界基于大数据的实证研究却比较薄弱。一方面,大数据往往为政府、大型公司或网络媒体所持有,数据获取渠道和分析方法都与传统的社会科学定量定性分析存在很大差异;另一方面,现有的大数据往往本身并非为社会科学研究而设立,其在样本代表性、测量可靠性等方面往往受到学界的诟病(Tufekci,2014;Boyd& Crawford 2012)。
2011年,以让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)为首的哈佛大学、麻省理工学院、大英百科全书的学者与谷歌研究团队,共同署名在《科学》杂志第331卷发表了题为《使用百万数字化书籍的文化定量分析》的重要论文(Michel etal.,2011)。该研究借助谷歌图书的海量数字化资料,分析了公元1500年到2000年间500多万本书籍高达5000多亿单词的语料库(corpus)。通过对关键词在语料库中的使用频率变化,展示了五百年来人类文化发展史中或鲜为人知或饶有兴味的趋势和现象。这个全新的研究领域,被称为“文化组学”(culturomics)。利用这个文化大数据,国际语言学界和历史学界已经出现了一些跨学科的探索性研究(Bentley et al.,2014;Acerbiet al.,2013;Twenge et al.,2012)。海量的数字化书籍和兄弟学科的最新探索,为社会科学领域的大数据应用研究提供了难得机遇。
社会学自19世纪末诞生以来,理论和方法日益丰富,学派和名家不断涌现,其理论和成果对人类经济、政治和社会文化生活的影响也在不断扩大和深入。在学术界内衡量一个学科或者某项研究成果的影响,nba下注往往依靠学术文献和引用指标(如学术书籍、学术期刊、论文引用影响因子),不过,要在更为宏观的时间、空间维度上观察甚至评估理论的发展、学者的成长乃至整个学科对于人类知识谱系的影响力,也即“文化影响力”,则要复杂和困难得多。现在,基于大数据的词频统计技术为这一领域的探索提供了可能。本文将利用谷歌语料库千亿量级的海量数据,通过对社会学关键词的词频分析来初步展示百年社会学发展历程中的现象和规律。本研究也是我国社会学领域的首次大数据分析尝试。
二、数据、概念和策略
让-巴蒂斯特·米歇尔等分析的数据来自谷歌图书(Google Books)。自2004底起,谷歌公司陆续对哈佛、牛津等40多所顶级大学图书馆藏书及出版社赠书进行了浩大的数字化工程,到2013年,谷歌已对超过三千万种书籍进行了扫描识别,占人类自古登堡印刷术发明以来出版图书的约四分之一,其中数字化质量较好可供全文检索的达八百多万种(8116746),词汇量8613亿(Linet al.,2012)。表1分别展示了谷歌图书语料库的主要构成。为实现基于全文检索的词频统计,该语料库采用了词汇连续语音识别中的“n-gram”算法模型以实现对语料库中海量文本的切分、断句。
书籍是承载人类知识、观念和思维的最主要的载体。只要语料库具有足够的代表性,nba下注就可以认为一个词汇在书籍中出现的频率,能够近似地反映这个词汇及其相关意蕴的“文化影响力”(涵盖知名度、关注度、影响力等多个维度),甚至折射出某种社会趋势、风尚或思潮(Twenge et al.,2012)。以“社会流动”一词为例: 首先,语言和词汇反映了作者的观点,而书籍作者比一般人拥有更大的文化影响力。作者群体越多地提及“社会流动”,就说明该词的文化影响力越高;其次,书籍出版会考虑读者的需求,因此书籍词汇的总体特征往往能反映大众观念和思维偏好。书籍中“社会流动”出现得越多,就意味着大众对相关的社会现象越为关注。

上一篇: 竞争 AI: 竞争反馈如何影响机器学习论文

下一篇: 中国微生物学会酿造分会 2020 年学术年会会议通知(第二轮)论文

热门标签
友情链接
nba下注 泛亚体育 泛亚体育 博电竞 泛亚体育 体育平台登录 博亚平台