国产成人一区二区三区小说,久久久综,爆裂点电影在线观看完整版未删减,av免费精品一区二区三区,哈利波特电影8在线观看免费完整版,成人在线国产,99国产精品99久久久久

關(guān)注我們
荊楚網(wǎng) > 最新播報(bào)

專家解讀token中文名為何定為“詞元”

發(fā)布時(shí)間:2026年03月30日14:51 來(lái)源: 中國(guó)科學(xué)報(bào)

近日,全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)發(fā)布《關(guān)于發(fā)布試用人工智能領(lǐng)域名詞token中文名“詞元”的公告》,決定在綜合考量社會(huì)各界意見(jiàn)建議的基礎(chǔ)上,優(yōu)先推薦“詞元”作為人工智能領(lǐng)域名詞token的中文名,并面向全社會(huì)發(fā)布試用。

“詞元”這一定名符合單義性、科學(xué)性、簡(jiǎn)明性、協(xié)調(diào)性等科技名詞審定原則。該定名經(jīng)全國(guó)計(jì)算機(jī)科學(xué)技術(shù)名詞審定委員會(huì)審定后,由全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)批準(zhǔn)向全社會(huì)發(fā)布試用。

清華大學(xué)計(jì)算機(jī)系副教授東昱曉認(rèn)為,“詞元”的定名捕捉了其在人工智能語(yǔ)言模型中作為“基本離散符號(hào)單元”的本質(zhì),又可以通過(guò)類比自然延伸至多模態(tài)領(lǐng)域。在“詞元”這一定名中,“詞”點(diǎn)明其在語(yǔ)言場(chǎng)景下的根源,體現(xiàn)出token與表達(dá)對(duì)象語(yǔ)義的密切關(guān)聯(lián);“元”傳達(dá)出“基本單元”之意,與“元素”等術(shù)語(yǔ)中的“元”保持一致的語(yǔ)義脈絡(luò)。

“token”一詞源于古英語(yǔ)tācen,意為“符號(hào)”或“標(biāo)記”。在語(yǔ)言模型中,token是文本經(jīng)過(guò)切分或字節(jié)級(jí)編碼后得到的最小離散單元。它既可能是人類語(yǔ)言意義上的詞串、單個(gè)詞,也可能是詞根、詞綴、子詞或單個(gè)字符。語(yǔ)言模型通過(guò)對(duì)token序列建模,展現(xiàn)出一定的智能水平。

全國(guó)計(jì)算機(jī)科學(xué)技術(shù)名詞審定委員會(huì)副主任委員兼人工智能分委員會(huì)主任委員、中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員陳熙霖表示,“詞元”一詞可以將“作為語(yǔ)言基本語(yǔ)義單元”這一最初本質(zhì)清晰表達(dá)出來(lái),更貼合其在人工智能中的初始角色。

隨著大模型從純文本走向多模態(tài),“token”所指已經(jīng)擴(kuò)展。圖像被切分為“圖像塊”并映射為嵌入序列,語(yǔ)音片段可以被量化編碼為離散單元,這些單元在多模態(tài)模型中同樣被稱為token,主要建模手段仍為序列模型。

此時(shí),“詞元”中的“詞”超越了人類語(yǔ)言意義上的“詞”,卻能暗合術(shù)語(yǔ)命名中普遍存在的類比思維——將非文本模態(tài)的離散基本單元也視作“廣義的詞”。這種用法與“詞云”(word cloud)、“詞袋”(bag of word)類似,雖由文本衍生,但已成為人工智能領(lǐng)域中表達(dá)更寬泛語(yǔ)義的通用術(shù)語(yǔ)?!霸~元”在跨模態(tài)場(chǎng)景中承載了“離散基本單元”的語(yǔ)義,這種語(yǔ)義普遍存在于所有模態(tài)之中。

在中文文獻(xiàn)、技術(shù)文檔及學(xué)術(shù)交流中,“詞元”作為描述大模型中token的譯名,逐漸被學(xué)術(shù)界很多學(xué)者認(rèn)同。token是模型將數(shù)據(jù)映射為離散符號(hào)序列的基本單位,本身并不攜帶智能,只是承載信息的載體;與“嵌入”“注意力”“隱狀態(tài)”等術(shù)語(yǔ)并列時(shí),保持了風(fēng)格一致性;符合中文“二字詞”偏好,表述簡(jiǎn)潔,易于傳播。

國(guó)家數(shù)據(jù)局?jǐn)?shù)據(jù)顯示,2024年初,中國(guó)日均詞元(token)調(diào)用量為1000億;至2025年底,躍升至100萬(wàn)億;今年3月,已突破140萬(wàn)億,兩年增長(zhǎng)超千倍。

【責(zé)任編輯:肖夢(mèng)吟】