心理所構(gòu)建漢語(yǔ)語(yǔ)言產(chǎn)生數(shù)據(jù)庫(kù)
近日,中國(guó)科學(xué)院心理研究所馮臣助理研究員、屈青青研究員及合作者在Nature旗下的Scientific Data發(fā)表漢語(yǔ)語(yǔ)言產(chǎn)生數(shù)據(jù)庫(kù)——A dataset of behavioral measures on Chinese word production in picture naming。
說(shuō)話,看似毫不費(fèi)力,但其實(shí)是人類最復(fù)雜的認(rèn)知活動(dòng)之一。過(guò)去幾十年,研究者們?cè)噲D澄清言語(yǔ)表達(dá)(又稱為“語(yǔ)言產(chǎn)生”)背后的認(rèn)知架構(gòu)和動(dòng)態(tài)加工過(guò)程。世界上大約有7000種語(yǔ)言,不同語(yǔ)言的詞匯、語(yǔ)音、字形系統(tǒng)大相徑庭。現(xiàn)有的實(shí)證研究與理論框架主要基于印歐語(yǔ)系。與印歐語(yǔ)言不同,漢語(yǔ)有獨(dú)特之處:漢語(yǔ)屬于漢藏語(yǔ)系,是一種聲調(diào)語(yǔ)言,同一個(gè)音節(jié)的不同音調(diào)表示不同的詞匯與意義,大多數(shù)印歐語(yǔ)言則不使用聲調(diào)來(lái)區(qū)分詞義。其次,印歐語(yǔ)言采用字母拼寫(xiě)系統(tǒng),而漢語(yǔ)采用非字母書(shū)寫(xiě)系統(tǒng)。另外,漢語(yǔ)的語(yǔ)音與字形的對(duì)應(yīng)關(guān)系較為復(fù)雜,例如,聲音/shu/可以對(duì)應(yīng)“書(shū)”、“梳”、“樹(shù)”或“薯”等多個(gè)不同的字形)。漢語(yǔ)研究對(duì)回答跨語(yǔ)言普遍性和特異性具有獨(dú)特價(jià)值和貢獻(xiàn)。的確,一些研究已經(jīng)表明,音位是印歐語(yǔ)言語(yǔ)音編碼的主要加工單元,而音節(jié)是漢語(yǔ)語(yǔ)音編碼的主要加工單元(O’Seaghdha et al., 2010)。
然而,目前大部分關(guān)于語(yǔ)言產(chǎn)生的研究側(cè)重于印歐語(yǔ)言,而對(duì)于漢語(yǔ)這一非印歐語(yǔ)言的研究則相對(duì)有限。此外,這些研究主要關(guān)注于口語(yǔ)產(chǎn)生過(guò)程,對(duì)于書(shū)寫(xiě)等字形產(chǎn)生的關(guān)注則明顯不足。同時(shí),許多研究依賴于較小的樣本量和有限的實(shí)驗(yàn)刺激,這可能導(dǎo)致統(tǒng)計(jì)效力不足和研究結(jié)果的可重復(fù)性問(wèn)題。構(gòu)建漢語(yǔ)語(yǔ)言產(chǎn)生數(shù)據(jù)庫(kù)的需求與日俱增。
此次發(fā)表的漢語(yǔ)語(yǔ)言產(chǎn)生數(shù)據(jù)庫(kù)記錄了667名被試在7種不同語(yǔ)言產(chǎn)生任務(wù)中的約20萬(wàn)個(gè)試次的反應(yīng)時(shí)間,以及實(shí)驗(yàn)材料的多個(gè)語(yǔ)言學(xué)變量(如:詞頻、字頻、音節(jié)頻率、習(xí)得年齡等)。該數(shù)據(jù)庫(kù)為研究漢語(yǔ)口語(yǔ)和書(shū)寫(xiě)產(chǎn)生的語(yǔ)言加工提供了豐富數(shù)據(jù)資源,為探索漢語(yǔ)產(chǎn)生的普遍性與特異性提供了數(shù)據(jù)基礎(chǔ)。此外,該數(shù)據(jù)庫(kù)對(duì)于開(kāi)發(fā)漢語(yǔ)語(yǔ)言產(chǎn)生的人工智能模型具有獨(dú)特價(jià)值與貢獻(xiàn),有望推動(dòng)語(yǔ)言認(rèn)知科學(xué)與人工智能領(lǐng)域的交叉與共同進(jìn)步。
圖1.(a) 數(shù)據(jù)庫(kù)所包含詞匯的詞頻分布;(b)不同實(shí)驗(yàn)任務(wù)下的反應(yīng)時(shí)分布特征(右,單位:秒)
注:圖a中,左側(cè)為該數(shù)據(jù)庫(kù)中包含詞匯的詞頻分布,右側(cè)為CLDC詞匯庫(kù)(Chinese Linguistic Data Consortium,現(xiàn)代漢語(yǔ)通用詞表)中的詞頻分布。在數(shù)據(jù)庫(kù)中,詞頻的分布與大型詞匯庫(kù)相似,顯示出廣泛的分布范圍。圖b展示了不同實(shí)驗(yàn)任務(wù)和范式的反應(yīng)時(shí)間(以秒為單位),平均反應(yīng)時(shí)間介于450毫秒至1500毫秒之間。使用相同實(shí)驗(yàn)范式的實(shí)驗(yàn)呈現(xiàn)出相似的反應(yīng)時(shí)間分布,而不同范式的實(shí)驗(yàn)反應(yīng)時(shí)間分布則顯示出較大的差異。實(shí)驗(yàn)材料較少的實(shí)驗(yàn),如cyclic blocking paradigm,其反應(yīng)時(shí)間更快且分布更集中;而實(shí)驗(yàn)材料較多的實(shí)驗(yàn),如simple picture naming,其反應(yīng)時(shí)間較慢且分布更廣。
該數(shù)據(jù)庫(kù)發(fā)表在Scientific Data。第一作者為心理所馮臣助理研究員,通訊作者為屈青青研究員。該數(shù)據(jù)庫(kù)已共享在OSF repository(https://doi.org/10.17605/OSF.IO/6GTZH),并通過(guò)心理科學(xué)數(shù)據(jù)銀行發(fā)布。
該研究得到了國(guó)家自然科學(xué)基金(No. 32171058, No. 31771212 and No. 62061136001),北京市科技新星項(xiàng)目、中國(guó)科協(xié)青年人才托舉項(xiàng)目(YESS20200138)、中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)項(xiàng)目,中國(guó)科學(xué)院心理研究所“揭榜掛帥”項(xiàng)目以及中國(guó)科學(xué)院行為科學(xué)重點(diǎn)實(shí)驗(yàn)室的支持(Y5CX052003)。
論文信息:
Feng, C., Damian, M.F. & Qu, Q.* (2024). A dataset of behavioral measures on Chinese word production in picture naming.?Scientific Data,?11, 185. https://doi.org/10.1038/s41597-024-03022-8
附件下載: