本篇文章給大家談談兩個字的霸氣名字女,以及兩個字游戲名字男霸氣的知識點,希望對各位有所幫助,不要忘了收藏本站喔。
作為世界上最古老的文字之一,中國漢字博大精深,在5000多年的時間里,每一個漢字從創造之初到演變至今,各有特點和故事。
但是,隨著社會文化的發展,后人在理解和使用漢字的過程中難免與古人有所差別,從而導致一些讓一眼看上去覺得很奇怪的文字組合。
在這一點上,不光中國,以漢字的模版的日本也一樣。
我國的一些奇怪地名我國的地名大多以“村”、“灣”,“山”、“河”、“溝”、“灣”、“坪”等字眼結尾,前面配以“和平”、“勝利”,這些比較正能量的詞匯取名,或者以百家姓姓氏,動物等為名,但總有一些并不按常理出牌。
1、火星村
如果有人說自己來自火星,來自月亮,來自太陽,他不一定是在搞笑,但他真的是火星人。
我國有好幾個火星村,陜西鳳翔縣、湖南新化縣、湖北孝昌縣、安徽六安市、四川眉山市、河南鄧州市、山西垣曲縣、上海青浦區,都有火星村,但最出名的還是杭州市錢塘新區義蓬街道的火星村。
火星村這個名字取自毛主席的名言:“星星之火,可以燎原。”
除了有火星村外,還有江西九江湖口縣的月亮村,以及來自山西運城和安徽六安的太陽鄉。
2、高潮村
大家可能聽說過“摸乳巷”,不過安徽六安不僅有太陽,還有一個讓人不敢問路的村子,高潮村,并且還不止一個。
名副其實的“只要自己不尷尬,尷尬的就是別人”。
3、太監弄
太監弄是因為太監嗎?
是的。
蘇州作為絲織品的出產重地,明清兩朝都只供應宮廷,所以專設有織造局,由太監主管。太監弄就是當時太監長期居住的場所,故取名太監弄,現在是蘇州的商業美食街。
4、恐龍鄉
恐龍鄉位于四川廣安,顧名思義,肯定與恐龍有關系?
要讓你失望了,中國雖然有很多恐龍之鄉都與恐龍有關系,四川自貢還是重要的恐龍化石產地,自這個恐龍鄉真有恐龍沒什么關系。
當地人只是因為生活的這個地方風景好,山青綠水,溝陵縱橫,是一塊龍都不敢居住的地方,所以取名恐龍鄉。
不過在2019年,恐龍鄉被撤銷,改為了酉溪鎮。
5、挨打巷
“挨打巷”位于成都高新區,是一條長約300米的背街小巷子。
因為巷子狹窄,陰暗,又沒有路燈,以前經常發生搶劫事件,附近的居民一害怕就取名為“挨打巷”。
不過經舊城改造,速理得干凈明亮,現在被改名為興蓉東街。雖然“挨打巷”已經面目全飛,但成都人對這條巷子交織著幾十年的情感,“挨打巷”這個名字又已別的方式成為成都文化的一部分。
像“挨打巷”這樣的地名,我國還有很多。比如:溫州的“馬桶里‘,“粑粑街,南京的“螺絲轉彎”,“神馬路”,“泥馬巷”、綿陽的“來爽街”等等。如同罵街詞語。
但這些都比不上德宏自治州的“啊,露窩羅路”,居然帶標點符號。
6、很黑村
很黑村位于內蒙古赤峰宇宙地鎮,這個名字來自于蒙古語,蒙古語里“kenker”,發音像很黑,外地人來了之后都聽成了“很黑”,后來就流傳開了。
有意思的是還有一家宇宙派出所。
7、大姑家、小姑家
大姑家位于吉林省蛟河市,如今已經拆除了,不過還有一個小姑家,如今依然保留著。兩個都是火車站的站名。
中國有這樣的地名,日本文字來自于中國,也有一些奇怪的名字。
日本取名很隨便在古代,日本除了天皇和百姓沒有姓氏外,只有貴族才能有自己的姓氏和名字,姓氏代表了著特權和階級,職業,或者干脆就近原則,靠近什么就叫什么。
比如:住得近,姓“近藤”,住得遠,姓“遠藤”,住在農田邊,就姓“田中”,住上河邊,就姓“川口”,住在山附近的自然姓“山口”。開飯店的姓“味美”、“膳夫”,開風月場所的姓“女屋”,做紡織的姓“服部”等等。
據資料記載,日本目前有14萬個姓氏,是世界上姓氏第三多的國家,中國也只有5662個,而這些姓氏90%都是在19世紀明治維新后出現的。1875年,日本頒布發令,強制規定“凡國民,必需起姓”,平民也可以有自己的姓氏后,日本人名就變得讓人捉莫不透。地名、國名、職業、信仰、器物、用具,都納入了取姓范圍。
我們來看看日本人取名有多隨便
1、在山口大學有個教授叫:執行正義。
以日本人的取名習慣,估計這位教授的祖先是一個勇敢正直的人。
2、而東京大學有個教授姓上床,名美也,而他的研究室也直接叫:上床工作室。
3、還有以日期為名字的。
比如:有人叫四月一日,有人叫八月一日,在中國這只能是日期,在日本卻是名字,而且還特別多。
日本人認為,四月一日,天氣回暖,萬物蘇醒,象征著春天的到來。而八月一日,夏去秋來,是豐收的季節。
4、姓神
在日本有1萬多個姓神的名字,據說大多是日本最古老的神社之一,出云大社神家的后代。
另外還有人姓“升天”,霸氣十足。
5、不講邏輯的名字:云云云龍龍龍
姓云云云龍龍龍的人,全名云云云龍龍龍麟鑒,是一個搞證券工作的,不知道他的祖先是不是有點結巴。
除此之外,由于大多數名字都被人取了,加上又不識字,但是人人都要有姓名,怎么辦了?聰明的日本人想到看到什么就叫什么,所以,就有了牛腸、牛丸、醬油、肛門、鼻毛、犬養、豬股、豬鼻、豬爪……等這樣的姓氏。
看不懂的日本地名在給自己取名時,日本人隨便,直率,且勇氣下足,但相比取地名,日本人就完全放開了手腳。
1、我孫子
在日本有兩個“我孫子”的地方,一個是位于千葉縣西北部的小鎮,另一個是位置東京的大阪府。
當然“我孫子”并不是“我的孫子”這個意思,“我孫子”這外名稱的由來,有兩種說法:
一種是曾經的大族“依羅吾彥”在這個位置居住,“依羅吾彥”的日文是“よさみのあびこ”,后來直譯過來就演變成了地名。另一種是這個地方在古代人們多以漁業與狩獵為生,而漁民使用的網稱為“寄網”,日文是“よさみ”,打獵用的工具稱為“網曳”,日文是“あびこ”,合起來后來演變成了“我孫子”。
除了“我孫子”外,還有一個“姥子溫泉”,位于神奈川,據說有800年歷史。
2、特牛
“特牛”這個名字不是很牛很厲害的意思,而是指“特別強健的牛”。
3、親不知
“親不知”是日本的一處著名“懸崖海岸線”景觀,但確實與親人有關。
據說是有位夫人攜子逃難到了此處,因斷崖地勢兇險,孩子被海浪卷走,如于寫下了一首感人的歌謠:“親不知子不知,越路浦波之惡,使吾妻子盡失”,這便是“親不知”的由來。
和親人相關的地名,還有一個叫“母戀”,全名母戀地球岬,日文里“地球岬”指的是“懸崖”。
4、下除毛、
如果你去到日本,會聽到很多有難為情的地名。
比如:“下除毛”,“尻毛”、“毛穴”、"女體入口"、"女體山"、"男體山"、"女神"、……
乍一聽還以為日本人很不正經,其實有些只是文字是中文,而意思卻完全不是我們想象的那種意思。
5、放出
“放出”位于大阪城,有意思的是這個名字除了大阪人會念外,就連日本人其它地區的人也會讀錯。因為日文中“放出”雖然字形相同,但有兩種讀發,一種是“はなてん”,一種是“ほうしゅつ”。
“放出”這個地名的由來據說是僧人“道行”偷走了日本三大神器之一的“草薙劍”,逃跑是因為害怕就把劍“放出”在此地。所以“放出”被稱為丟棄神器之地。
6、喜連瓜破
“喜連瓜破”這個名字很有意思。一是很多日本人不會念,二是這個車站名是由兩個地方的名字組合起來的。“喜連”指的是“喜連村”,“瓜破”指的是“瓜破村”。而這兩個樹的名字又各有來頭。
“喜連村”據說是我國的“吳人”遠渡到日本,這個村子里的人都是“吳人”的后代,所以叫“喜連”。“瓜破村”是字面意思,相傳是高僧“道昭”在這里切開瓜果供奉過神明,所以取名“瓜破”。
7、志布志市 志布志町 志布志の志布志市役所 志布志支所
這個地名可不是我在亂打,但是我懷疑當時取名之人不是結巴就是舌頭打卷了。
是日本志布志市的一家市公所,因日本的一檔綜藝節目而出名。被稱為全日本最難讀的公所名。
全名可分為5個部分:
市名:志布志市
町名:志布志町
地名:志布志
市政廳名:志布志市役所
分部名:志布志支所
因為太長,自被日本民眾吐槽后,這家市公所一直想改名,去年在總部搬遷后,改名為:志布志市志布志町志布志の志布志市役所本廳。
也就少了三個字,沒啥區別。
寫在最后:
名字,不管是地名還是人名,都是人類語言的符號。
日本文字來源于漢字,雖然有很多讓人涕笑的文字組合,卻是漢字文化的另一種折射,這和文化差異有關系。
德國思想家洪堡特說:“每一個人,不管說什么語言,都可以看作是一種特殊世界觀的承擔者。“
每個國家都有特有的取名文化,每個地方的人們在取名時,都是結合了人們社會生活,地理特點,以及情感,用文字來寄托和延續各自的世界觀。
是文化的寶藏,也是人民的精神財富。
到處散播我的謠言不會證明我是什么人,只能證明你是什么人。今日,可愛點小編帶來抖音兩個字男網名霸氣十足,生來就不討喜~
聞愛
不煙
靜心
奈何
空白
陪伴
上癮
離殤
浮城
容止
時光
酒膩
瀠鴻
無恙
狂神
頑劣
莫愛
孤妄
浮夢
邪魅
沉淀
涼薄
千城
流浪
沉迷
迷失
南嶼
漂流
羈絆
弒魂
行者
俗人
塵醉
島徒
縱歌
俗趣
熱火
薄祭
酒歸
越界
情渡
圈心
門徒
薄幸
宿觴
孤心
情殤
逐光
膩愛
落塵
青尤
清歡
虛擬
孤風
侯喬
孤妄
安燁
柯騎
沉默
熙遠
久昧
今日分享完畢!抖音兩個字男網名霸氣十足送給大家,人可以不聰明但得清醒~
在男生的出生之際,就肩負著特別的責任,父母希望他們日后能夠頂天立地,事業有成,也希望他們有著血氣方剛,陽光溫暖,有威武霸氣的氣勢,又知謙遜儒雅的紳士禮節,若是想讓男孩長大后成為這樣的人,不妨取個帶著這些特質的名字,在成長的過程中給男孩以層層啟示,今天就將威武霸氣又儒雅的男孩名字分享給大家,希望能夠幫助到各位家長。
威武霸氣又儒雅的男孩名字一個字簡單的名字會更為響亮易記,正是如此很多家長會選擇取單字名,更能凸顯其特別的氣質,下面就為大家準備了威武霸氣又儒雅的男孩名字一個字,希望大家看完后能夠喜歡。
<01>、帆
如“孤帆遠影碧空盡,唯見長江天際流。”中所寫,帆是指借助風力推動船前進的布蓬,帆能使船更為順利迅速的前景,多形容揚帆起航,千帆競發,一帆風順等,用于男孩名中寓意著吉祥如意,萬事大吉,讀之是個霸氣十足很有威風氣勢的字,且字形秀氣得體,有著幾分儒雅感,很有韻味。
<02>、銳
常說“銳不可當”用以形容機敏聰明,勇往直前的個性特質,銳字的部首為金字旁,是個鋒利尖銳的字眼,這也映射了銳字本身的精明與靈敏,威武氣勢撲面而來,霸氣十足,讀之簡單大氣,字義通俗易懂很容易記住,有著幾分儒雅氛圍,且為男孩起名常用字,很適合陽剛且溫柔的男孩使用。
<03>、煜
有一詩句“日以煜乎晝,月以煜乎夜。”所言,煜字的本義為照耀、明亮的樣子,也可指火焰,象征一個人的熱情開朗,豁達樂觀的心態,用于男孩名中寓意著神采奕奕,積極向上,威風凜凜,霸氣非凡,但風骨中卻盡顯溫柔儒雅的紳士氣質,是個很特別的字,用于男孩起名非常適合。
威武霸氣又儒雅的男孩名字兩個字若是想賦予名字更為特殊的意蘊,又希望名字不過與單調,可以選擇兩個字的名字,選擇的范圍也更為廣泛,下面準備了威武霸氣又儒雅的男孩名字兩個字分享給大家,希望大家能夠喜歡。
<01>、宇澤
宇宙之大,萬物潤澤,宇本是指的屋檐,也可形容人的風度氣宇軒昂,儀表堂堂等,澤的本義是光澤、潤澤、恩澤等,指的是潤澤萬物,深仁厚澤,恩情厚重,結合搭配可以理解人的氣質脫塵出俗般儒雅溫柔,但也有給人帶來威武霸氣的深刻感受,預示著男孩是個一身浩然正氣之人。
<02>、世霖
一生一世,甘霖露水,世是對時間的一種描述,而時間是最為珍貴的事物,霖正是形容的雨水連綿不斷,水與溫柔相對應,象征著溫潤如玉,恩澤萬世,結合搭配有種莫名的威武氣息襲來,很是霸氣,但讀之如清水泠泠,儒靜又優雅,用于男孩名字也是寓意著福滿乾坤,事事順意。
<03>、峻成
《楚辭》中曾寫“山峻高而蔽日兮。”描述山高而陡峭,峻字其實意指的是高大英俊,頂天立地的事物,成字是指有能力,成就,完成等,意指馬到成功,二字結合為名意喻著男孩日后出類拔萃,豐功偉績,前程似錦,讀之威武霸氣,莊嚴高大上,又有幾分儒雅蘊意,層層遞進。
威武霸氣又儒雅的男孩名字之網友問答名字是陪伴孩子一生的部分,若是想要名字帶給孩子更多的幫助,家長們就需要在取名上下一定的功夫,下面收集了威武霸氣又儒雅的男孩名字之網友問答,看看好的名字是如何取出的吧。
<01>、
問:我想為兒子取個名字,希望他能成為頂天立地但不失溫柔暖心的君子,字數不限,還請各位老師幫忙推薦一個好名字,感謝!
答:您好,根據您的描述,為您推薦的名字為<逸軒>。逸的本義是指安閑,安樂,不受拘束的狀態,意指平安喜樂,祥和安康,軒字則代表的是氣宇軒昂,朝氣蓬勃,結合搭配為名意喻著男孩頂天立地,出類拔萃,知書達理,溫柔儒雅,既有風度翩翩的氣度,也有儀表堂堂的氣質,是個溫暖的人。
<02>、
問:想給兒子取個吉利祥瑞的名字,最好是寓意著學識淵博,事業有成,兩個字的,拜托各位老師幫忙取個名字,十分感謝!
答:您好,根據您的描述,為您推薦的名字為<宏旭>。宏多用于宏偉,宏愿,宏圖當中,指心胸寬廣,博學多才之人,而旭日東升,代表陽光冉冉升起,象征著美好的希望,旭字美觀得體意蘊深厚,與宏字搭配為名寓意著男孩的事業蒸蒸日上,是個吉祥如意,事事順心的好名字。
威武霸氣又儒雅的男孩名字大全無論是威武霸氣還是溫柔儒雅,對于男孩來說其實都是美好的贊揚與描述,若是想要同時體現出這些特質,更是需要在取名時精雕細琢。下面整理了威武霸氣又儒雅的男孩名字大全,一起來看看吧。
<01>、沐、怡、奕珩、浩軒、庭浩
<02>、諾、凌、宇碩、嘯喆、哲軒
<03>、子、啟、路楊、云辰、鈞凡
<04>、明、家、路陽、熙炫、豪吉
<05>、琪、司、玉瑯、玉哲、衡云
<06>、天、志、浚博、照涵、博杰
<07>、晏、嘉、悅弘、子睿、翔皓
<08>、俊、炳、宇軒、怡博、碩奇
<09>、潤、光、恒豪、星宇、碩澤
<10>、承、梓、宇陽、光星、騰豪
<11>、東、倚、鈞溢、樹愷、人言
<12>、峻、鴻、宏旭、浩宇、寨涵
<13>、致、新、昊沅、椏巖、碩佑
<14>、勝、奧、紅佑、碩諾、豪逵
<15>、世、浩、弋焱、鑫源、博祥
<16>、茂、宇、統維、邦陽、賀羽
<17>、希、欣、奧哲、宇謙、翰春
<18>、乙、鎮、明哲、茁帆、煜豪
<19>、樹、冠、明碩、銳瑞、興澤
<20>、逸、長、逸軒、辰宇、碩哲
“威武霸氣又儒雅的男孩名字”聲明:本文為 天賜佳名 編輯發布,如有疑問可以私吾!
編者按:正如AI繪畫快速席卷游戲行業一樣,前段時間突然爆火的 ChatGPT ,也成了不少游戲人夜不能寐的「技術心魔」。
舉例,不代表游戲運營實際情況
有人會拿它編寫游戲代碼或查BUG;
還有人讓它跟AI繪畫聯動,快速生成一些適合出圖的關鍵詞。
……
當然,這還只是目前游戲從業者們能夠探索出來的功能,根據AI繪畫發展的前車之鑒,即使目前 ChatGPT 的一些回答還不算完美,未來它也會快速迭代得更加成熟——換句話說,除了美術之外,更大范圍的游戲從業者或也將面臨著被AI「取代」的尷尬局面。
01
在回顧歷史前,首先要跟風提一下幾天前發布的 ChatGPT,一個絕對神仙級別的自然語言生成式AI。
ChatGPT 誕生的重要意義,恐怕不亞于 StableDiffusion 等AI繪畫生成模型的出現。有興趣的朋友可以感受去 Chat.openai.com 感受一下這個當今最牛逼沒有之一的自然語言問答式AI的巨大威力。
ChatGPT 是明星人工智能公司 OpenAI 的GPT自然語言生成式模型的最新衍生品。在這之前,坊間已經傳聞 OpenAI 的下一代自然語言生成模型GPT4即將出現。而且,有一個讓人震驚的江湖傳言:GPT4據稱通過了圖靈測試。
圖靈測試究竟是什么意思?簡單的說,就是隔著一個小黑屋問各種話題,然后是否能分辨小黑屋里回答問題的究竟是機器還是人類。如果無法辨別,就就說明了機器具有和人一樣等級的智能,通過了圖靈測試。
迄今為止,還沒有AI模型能真正通過圖靈測試。看來臨界點已經到,筆者都迫不及待的期待GPT4的真正推出了。
誰知道,還沒等來 GPT4 ,衍生自 GPT3.5 的 ChatGPT 卻先來了。顧名思義, ChatGPT 就是「聊天GPT」,以對話的方式交互,用戶問問題,它來回答。
咋聽起來,似乎也沒有很新鮮。但情況是,ChatGPT 的智能化遠遠超出了那些它的聊天AI前輩們。
好比
StableDiffusion/Midjourney也就是AI繪畫,但所能生成的AI繪畫質量甩了前輩無數條街。
網上有越來越多的文章開始安利 ChatGPT,不過多是拿了外網英文問答的截圖,其實 ChatGPT 可以直接上中文。
先隨意上幾個問答大家感受一下,問中國菜,算是送分題:
問從希格瑪大廈如何去天安門,開始有點難度了,回答非常正確(要知道,這可不是某個特地為了中文導航優化的AI,ChatGPT是從它通用的知識積累里得到的理解)。
對龍珠的劇情理解,回答中規中矩,80分+,本來作者期望它能講得更詳細些:
吃貨國家問題,有點刁鉆了:
廣東人真的喜歡吃甜的?這個問題很多中國人都不一定答得上:
另外,可以直接問 ChatGPT 怎么寫代碼,比如寫一個俄羅斯方塊:
沒有懸念,代碼完全正確。
而更有想象力的,是讓 ChatGPT 來生成AI繪畫的輸入關鍵詞。讓AI自己來指導AI作畫,多美妙的主意。
這僅僅是一個開始,隨著 ChatGPT 在全網的各種自來水安利,相信還有更多古靈精怪的玩法不斷被網友們挖掘出來。
ChatGPT 的回答給人的感覺是,這是一個特別靠譜的聊天AI,真正的上知天文下知地理,最關鍵的是,它不胡說八道。正因為它回答的準確性,看起來ChatGPT有了替代通用搜索引擎Google的可能性。
測試版的ChatGPT仍有一些缺點,但這都只是戰術級別的;在戰略上,ChatGPT 的前景已經相當令人期待,特別是 OpenAI 下一代GPT4加持下的 ChatGPT,其能力恐怕更加突破天際。
我們也許正在經歷又一個AI突破的時刻,一如2022年初到年中AI繪畫的勢如破竹。 而這次,則是人類通用信息生成的突破。
喜歡刨根問底的讀者們會問, AI是如何走到這一步的?讓我們遠離現實的喧囂,把目光投回到那有點遙遠的過去吧。
02
人工神經網絡的起源
從某種意義上,語言表達是人類信息和思想交流的窗口。人類并沒有第七感,也沒有腦電波直達的交流(目前沒有:P),信息溝通都通過口頭語言和書面語言來傳遞(當然, 可以說還有一些手勢和肢體表達,但信息量基本可以忽略不計)。
針對語言信息的人工智能處理,或者學術一點,「自然語言處理 NLP」,是科學家們最早研究,人工智能最早發源的領域。
遠在 1956 年,美國的達特茅斯學院舉行了一次具有傳奇色彩的學術會議(DartmouthConference),計算機專家約翰·麥卡錫提出了「人工智能」一詞。這被廣泛認為是人工智能正式誕生的日子。
十位參與1956年的達特茅斯會議的科學家,A之父們
這個會議很有意思,事后諸葛亮的我們,一起來看看這個會議個特別有前瞻性的主要議題:
1. Automatic Computer 自動計算機:
「如果一臺機器可以完成一項工作,那么就可以對一臺自動計算器進行編程來模擬這臺機器。目前計算機的速度和內存容量可能不足以模擬人腦的許多高級功能,但主要的障礙不是缺乏機器容量,而是我們無法編寫充分利用我們所擁有的機能。」
現代第一臺電子計算機 ENIAC 的發明日期是 1946 年 2 月 14 日,也就是說,當時距離第一臺電子計算機的誕生僅僅過去了 10 年。先驅們的遺憾是當時高級程序技術還基本沒有,無法充分發揮計算機的作用。
2. How can a Computer be Programmed to Use a Language?如何對計算機進行編程以使用一種語言:
「可以推測,人類思想的很大一部分是根據推理規則和猜想規則來操縱詞語的。從這個觀點來看,形成泛化就是承認一個新詞和一些規則,其中包含這個新詞的句子暗示和被其他句子暗示。這個想法從來沒有被非常精確地表述過,也沒有例子。」
先驅們對語言文字的機器理解充滿了預期,而直到現在,有了 GPT 這些當超大規模的自然語言 AI 模型,我們才堪堪敢說,先驅們的期望逐漸在實現,計算機開始真正理解了語言。
3. Neuron Nets 神經網絡:
「一組(假設的)神經元如何排列以形成概念。很多當下的計算機科學家等人已經就這個問題做了大量的理論和實驗工作。已經獲得了部分結果,但這個問題還需要更多的理論工作。」
神經網絡。在 AI 概念誕生之時,先驅們就意識到了,人工神經網絡的概念將要在 AI 里發揮重要作用。
4. Theory of the Size of a Calculation 計算規模理論:
「如果給一個很好的問題(一個可以機械地測試所提出的答案是否是有效答案的問題),解決它的一種方法是按順序嘗試所有可能的答案。這種方法是有效的,要排除它,必須有一些計算效率的標準。一些考慮將表明,為了獲得計算的效率的度量,必須手頭有一種測量計算設備復雜性的方法,如果有函數復雜性理論,這反過來也可以做到。香農和麥卡錫已經獲得了關于這個問題的一些部分結果。」
計算機科學里重要的計算復雜性理論,就是這個時間點被提出和發展起來的。
5. Self-improvement 自我改進:
「也許真正智能的機器會進行自我改進的活動。已經提出了一些這樣做的方案,值得進一步研究。這個問題似乎也可以抽象地研究。」
這是一個很有挑戰性的問題,用現在的觀點可以換個說法:AI 是否能實現自我編程自我提升?或許很快就可以了。
6. Abstractions 抽象
「許多類型的「抽象」可以被清晰地定義,而其他一些類型則不那么清晰。直接嘗試對這些進行分類并描述從感官和其他數據中形成抽象的機器方法似乎是值得的。」
通過機器智能來對各種信息自動加以分類和抽象,這正是當今各種牛逼閃閃的AI大模型正在達成的成就。
7. Randomness and Creativity 隨機性和創造性:
「一個相當吸引人但顯然是不完整的猜想是,創造性思維和缺乏想象力的有效思維之間的區別在于注入了某種隨機性。隨機性必須由直覺引導才能有效。換句話說,受過教育的猜測或直覺在其他有序的思維中包括了受控的隨機性。」
先驅們非常直觀的理解,是否有隨機性是創造性思維和非創造性的分析思維的重要區別。
而隨機性需要由一些「直覺」引導, 或者說真正的 AI 需要一種「受控的隨機性」。
其實, 當前 AI 繪畫生成機制里很好踐行了這個洞察:在每一幅 AI 繪畫背后都是一個 AI模型(比如 Stable Diffusion)+ 一個確定的輸入(一組關鍵詞)+ 一個系統生成的隨機數。同樣的「關鍵詞組 + 隨機數」輸入到 AI 模型里,必然生成一個完全相同的 AI 繪畫作品。這不就是「受控的隨機性」嘛。
達特茅斯會議的參會先驅們都是大神,也值得在這里簡單提一下:
約翰·麥卡錫(John McCarthy), 率先提出了 AI 的概念, 開發了碼農熟知的程序語言 Lisp。有意思的是,Lisp 是在 1958 年發明的,看看會議的第一個議題,抱怨沒有好用的編程語言可用,大牛的態度就是沒有趁手的工具嗎?那我就自己發明一個。
約翰·麥卡錫在 1971 年獲得了圖靈獎。
馬文·明斯基(Marvin Minsky),在 1951 年在普林斯頓大學讀博士的時候,建立了第一個神經網絡自學習機器 SNARC (Stochastic Neural Analog Reinforcement Calculator 隨機神經模擬強化計算器),這是第一個真正意義上的人工神經網絡硬,用 3000 個真空管來模擬了 40 個神經元的信號傳遞。
明斯基的博士論文也正是神經網絡。有趣的是,明斯基拿的是數學系博士學位。當時有人挑刺說神經網絡的研究能算數學?而當時支持明斯基的正是大名鼎鼎的現代計算機之父馮·諾伊曼。馮·諾伊曼說:現在不算,但很快就得算了。
明斯基在 1969 年獲得了圖靈獎。
克勞德·香農(Claude Shannon),通信科學鼻祖,大名鼎鼎的香農定理是所有通信制式最基本的原理。和計算機鼻祖并駕齊驅的香農同學就不需要圖靈獎了,因為在通信領域有以他的名字命名的的最高獎香農獎:)
赫伯特·西蒙(Herbert Simon)和艾倫·紐厄爾(Allen Newell)在達特茅斯會議上報告了世界上第一個 AI 項目「邏輯理論家(the Logic Theorist)」。
這個 AI 證明了《數學原理》第二章 52 個定理的 38 個,甚至找到了比原教材更優美的證明。兩人合作提出了搜索式推理的方法,開創了人工智能除神經網絡學派之外的第二條路線:符號主義學派。這兩位在 1975 年一起拿到了圖靈獎。
題外話是,這兩位牛和當時數學系主任、第一屆圖靈獎獲得者阿蘭·珀里思(Alan Perlis)一起創立了卡內基梅隆大學的計算機系,從此,CMU 成為計算機學科的重鎮。
在達特茅斯會議之前,還有一個1955年的小討論會「學習機討論會」,在那次討論會上,主持人也是神經網絡的鼻祖之一的皮茨 Pitts 做了一個有趣總結:
「...一派人企圖模擬神經系統(Neuron Net),一派人企圖模擬心智(mind,就是上面西蒙的符號派)...但最終大家的目的一致」。
這句眼光毒辣的話,冥冥之中預示了隨后幾十年間 AI 研究「結構 V.S. 功能」的神經網絡派和符號主義派兩條路線之爭。
03
潮起又潮落
達特茅斯會議之后,AI 進入了一個大時代,人們驚奇的發現,計算機居然可以證明數學定理,學習使用語言。在眾多AI研究方向中,搜索式推理,自然語言處理最有影響力。
從 1955 年到 1974 年是 AI 的第一次發展高潮,大量成功的初代 AI 程序和研究方向不斷出現。AI 先驅們非常樂觀的預言:
「十年之內,數字計算機將成為國際象棋世界冠軍。」(1958年,H. A. Simon,Allen Newell)
「二十年內,機器將能完成人能做到的一切工作。」(1965年,H. A. Simon)
「在三到八年的時間里我們將得到一臺具有人類平均智能的機器。」(1970年,Marvin Minsky)
結果呢?事后諸葛亮看回來,當然是被啪啪啪的打臉啦。
到了 70 年代初,AI 科學家們逐漸發現,雖然機器擁有了簡單的邏輯推理能力,但遇到了當時完全無法克服的基礎瓶頸,這些瓶頸基本就是時代的局限:
1) 當時計算機的運算能力問題:
且不說當時最原始的計算機那點可憐巴巴的算力了,我們知道,一直到了最近十來年,個人計算機組網之后的并行算力才真正達到了可以支持現代 AI 大模型訓練迭代的要求。
2)推理需要積累大量對世界的認知信息:
這就是個大數據的基礎積累問題。而大數據的積累,也是在現代互聯網的迅猛發展之后,才得到了真正的解決。
還有一個神奇的事情是,人工神經網絡這個當下最主流的 AI 發展路線,在當時陰差陽錯的遭到了巨大打擊一蹶不振。而暴擊了整個神經網絡研究的,正是人工神經網絡的締造者馬文·明斯基本人。
前面說過,明斯基搭建了第一個神經網絡自學習硬件機器。當時有一位明斯基低一屆的高中學弟弗朗克?羅森布拉特(Frank Rosenblatt),從康奈爾大學獲得博士學位后,跟隨師兄的步伐,獲得了美國海軍研究室資助,研制了人工神經網絡「感知機(Perceptron)」。
1957 年,第一個版本的感知機以軟件仿真的形式運行在 IBM704 上。1962 年,羅森布拉特出版《神經動力學原理:感知機和腦機制理論》,引起了全球 AI 實驗室的大量關注和效仿,并將感知機系統運用于文字識別,語音識別等領域,神經網絡研究達到了第一次高潮。
而這個時候,明斯基自己回到哈佛任教,申請國防項目卻遭到了挫折,讓明斯基特別郁悶的是,自己曾服役的海軍把經費投給了學弟,支持的卻是自己好幾年前就玩過的神經網絡。
數學背景深厚的明斯基拿起數學武器對人工神經網絡進行了扎實的理論分析,并在 1969 年出版了《感知機》,通過數學理論推演指出羅森布拉特的感知機功能有限,甚至不能解決線性不可分問題(如不能用一個直線或者一個直面把二維或者三維坐標系中的兩類數據很好的劃分。就是線性不可分)。
明斯基在《感知機》書中暗示說:把感知機從一層神經網絡推廣到多層的思路是沒有希望的。
既然連 AI 先驅和人工神經網絡締造者本人的明斯克都說,神經網絡這個方向沒戲,所有的研究者都深感氣餒,神經網絡的研究從此走向了低潮。更可惜的是,在兩年后,發明感知機的學弟羅森布拉特遭受意外去世,再也沒人出來挑戰明斯克的結論了。
然而,歷史總喜歡和人開玩笑。事實上,是明斯克錯了。
我們現在已經知道,恰恰是只要把感知機從單層網絡變成多層,就可以解決線性不可分問題。其實當時羅森布拉特以及其他研究者也想到過多層感知機,但苦于一直沒有找到訓練多層神經網絡的方法。直到了 80 年代中期,相關算法才被找到和提出,人工神經網絡的研究再一次走向繁榮。
04
希望越大, 失望越大的專家系統
在 80 年初,一類名為「專家系統」的 AI 程序開始為全世界公司青睞,人工智能研究又迎來一波高潮。
什么是「專家系統」?百度百科的解釋如下:
專家系統是一個智能計算機程序系統,其內部含有大量的某個領域專家水平的知識與經驗,它能夠應用人工智能技術和計算機技術,根據系統中的知識與經驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復雜問題,簡而言之,專家系統是一種模擬人類專家解決領域問題的計算機程序系統。
一句話說,專家系統根據過往的知識經驗積累來模擬人類專家從而進行邏輯推理和判斷。
等一下,這個說法是不是有點熟悉?聽起來似乎有點像 AI 先驅赫伯特·西蒙(Herbert Simon)和艾倫·紐厄爾(Allen Newell)所做的第一個AI項目:「邏輯理論家(the Logic Theorist)」。
事實上,這正是人工智能兩大路線的符號主義派的成果體現。第一條路線神經網絡派在當時被自己的鼻祖明斯克按在地上摩擦,第二條路線則在 80 年代初恰逢其時的站了出來。
和神經網絡旨在研發通用結構的 AI 模型不同,專家系統基于符號邏輯的概念。它們通常是由特定領域的專家(比如醫藥、金融或者制造業)開發的,僅限于一個很小的知識領域,依據一組專門知識推演出的邏輯規則來回答特定領域的問題。而隨著專家系統的熱門,「知識處理」也隨之成為了主流 AI 研究焦點。
專家系統的一個典型項目是專家配置器 XCON(eXpert CONfigurer), 由卡內基梅隆大學為 DEC 公司設計開發。該系統可以說是世界上第一個(特定領域的)推薦引擎,通過幾千條規則來對計算機部件的選擇進行最優化。從 1980 年投入使用以來,它為 DEC 公司制造 VAX 系列電腦節省了數千萬的成本。隨著 XCON 的成功被更多企業所了解,專家系統在 80 年代中期迎來了它的繁榮,造就了一個數十億美金的市場。
不過,最為普通人所熟知的專家系統應該是后來的 IBM 超級計算機「深藍」。IBM 從 1985 年開始研發「深藍」計算機。它是一個專門針對國際象棋的專家系統。1996 年,它在六場比賽中的一場中擊敗了國際象棋大師加里·卡斯帕羅夫(Garry Kasparov),名揚天下。
但專家系統在工業界多少有點曇花一現,繁榮之后迎來的是迅速的沒落。這是因為 80 年代的專家系統存在著基礎性的問題,首先就是專家系統的知識領域過于狹窄難以拓展。
說到這里,筆者讀書時曾經困惑過,為什么「深藍」那么牛逼的系統,贏了國際象棋后好像就泯然眾人矣,并沒有繼續在其他領域發揮光和熱。
而答案就是,看來它只能用來下國際象棋...
此外,在專家系統變得越來越龐大后,為其提供和管理數據、開發和測試都變得越來越復雜。更要命的是,專家系統是不會自己學習的,這意味著必須不斷更新底層邏輯來保持專家系統解決領域新問題的能力。這大大增加了系統維護成本和復雜性。
因此,到了 80 年代末期,大家都看明白了,專家系統雖然有點用,但領域過于狹窄,更新迭代和維護成本非常高。專家系統開始迅速在業界失寵,很多相關公司破產。
這就是人工智能的第二次繁榮后的又一次寒冬。而導致第二次AI寒冬的原因,除了前面所說的應用范圍的局限性和商業過分追捧導致最后泡沫的破裂,還有那兩個老大難問題:
1)計算機的算力瓶頸仍然無法突破
2)仍然缺乏訓練AI的足夠海量數據
有些讀者或許會問,在當下這兩個老大難問題或許可以說初步被解決了,那么專家系統這條路線是否重新有用武之地呢?
答案是肯定的,就在最近,Meta 提出的人工智能 Cicero 成為了 AI 領域的熱門新聞,Meta 做出了這個史上最復雜的多人外交策略 AI,和人玩在線版「外交」游戲。 在每場比賽中,Cicero 可以自己查看比賽情況,了解各個玩家的行動歷史,模擬真人和不同玩家溝通,從而預測其他玩家的行動。它能自行制定計劃,并通過人類語言與其他玩家進行協調執行策略,沒有人察覺出它是 AI。
Meta Cicero AI 成功的關鍵因素,正是重新引入了和大數據模型結合的專家知識系統。
在當年的專家系統開始走向低谷之時, 深度學習的前身人工神經網絡卻取得了革命性的進展,在1986年戴維·魯梅哈特(David Rumelhart)、杰弗里·辛頓(Geoffrey Hinton)等人推廣了由保羅·韋爾博斯(Paul Werbos)發明的反向傳播算法(BP 算法),使得大規模多層神經網絡訓練終于成為可能。
反向傳播算法使得神經網絡的中間級可以學習到數據輸入的有效表達,這就是神經網絡乃至深度學習的核心思想。困擾AI先驅們的多層神經網絡無法訓練的難題終于被突破了。
不知道曾親自給神經網絡蓋棺定論的明斯基,當時聽到這個消息的心情是什么:)
稍作休整,在我們步入當下的第三次浪潮之前,先再來回顧一下人工智能的兩條路線之爭:
符號主義:
傳統的研究思路,主張通過功能模擬入手,把智能看做是符號處理的過程,采用形式邏輯來實現人工智能,所以稱之為「符號主義(Symbolism)」或「邏輯主義(Logicism)」。
符號主義可以對形式化表達的問題(比如下棋、數學定理證明)有效,但人類很多的常識,以及接收的很多信息都無法用符號表達,比如視覺聽覺等基本感知能力,雖然不像邏輯推理這樣高大上,但符號主義至今都沒有好的辦法處理;而類似想象力、創造力、情感和直覺這些人腦特有的認知能力,目前更是符號主義無法企及的領域。
神經網絡:
和符號主義功能模擬這種自上而下的思路相反,神經網絡就是徹底的自底向上的結構仿真路線。直接模仿人腦智能的物質基礎神經網絡,希望通過人工方式構建神經網絡,從而產生智能。
從羅森布拉特的感知機,一直到當下大眾所知道的深度學習網絡,這個路線把智能活動看做是大量簡單神經單元通過復雜連接和并行運行之后的結果,所以也被世人稱為「連接主義(connectionism)」。
05
大算力,大數據,大力出奇跡
2006 年,杰弗里·辛頓(Geoffrey Hinton)在 science 期刊上發表了重要的論文,提出深度信念網絡(Deep Belief Networks,DBNs),「深度學習】正式誕生,基于人工神經網絡的第三次 AI 發展浪潮開始了,且一直延續至今。
和前兩次浪潮不同的是,當下計算機性能已經能讓大規模的人工神經網絡模擬得以成為現實,在 1957 年,羅森布拉特用 IBM704 去仿真感知機,每秒完成 1.2 萬次浮點加法,而如今超級計算機速度是 IBM704 的 10 萬億倍以上。
此外,個人計算機 GPU 近些年發展迅猛,盡管 GPU 的初衷是為了加速 3D 圖形計算,但通用 GPU 的計算模式正好匹配了神經網絡并行計算的需求特點,從而進一步推動了神經網絡模型的發展。
除了算力之外,限制前兩次 AI 浪潮發展的另一主要因素就是數據的缺乏。在深度學習理論模型提出之后,最早之一意識到了 AI 學科發展的數據鉗制并著手去解決的是華人女 AI 科學家李飛飛。年輕的李飛飛以堅韌不拔的大無畏精神推動完成了一個超大規模的開源圖片標注數據庫,這就是著名的 ImageNet 項目。在 2009 年正式發布時,ImageNet 有超過 1000 萬數據,兩萬多個類別。
2010 年開始,Image Net 大規模視覺識別挑戰賽(ILSVCR)開始舉辦,全世界圖像領域深度學習的專家們同臺競技和交流,從此拉開了計算機視覺的新篇章。
額,本文主要是關注自然語言大模型的前世今生的,而 ImageNet 完全是圖像領域的工作。但是,ImageNet 的出現和發展給了自然語言 AI 模型研究一個很重要的啟發。這就是圖像領域深度學習的預訓練概念。
大家都知道,「深度學習」顧名思義,就是具有很多層級的神經網絡模型。現代神經網絡模型的網絡結構層數很深,動則幾百萬上千萬參數量。而這些神經網絡模型在能做特定任務之前,都是需要經過「訓練」的,即根據標注好的特定訓練數據去反復調整模型里的參數,最后所有參數調整到位,模型能匹配訓練數據集的輸入和輸出。
那么,問題來了,要調整深度學習神經網絡模型里那成千萬的參數量,如果訓練數據少了,肯定很難調整到位啊。這就好比一個內部齒輪復雜精密的新機器,如果只稍微動一下,內部能牽扯到的齒輪機構說不定都很少,達不到磨合的目的;只有大規模長時間運轉起來,內部的齒輪才能全速轉起來,互相磨合好。
但是,那些特定的 AI 任務往往沒有那么多訓練數據啊,這可怎么辦呢?
非常值得慶幸的是,AI 科學家研究發現了深度學習網絡一個有趣的特性,對于圖像領域的深度學習神經網絡而言,不同層級的神經元學習到的是不同邏輯層級的圖像特征。
如上圖所示,若將訓練好的網絡每層神經元學習到的特征可視化,會發現,最底層的神經元學習到的是線段等特征,第二層學到的是人臉各個五官的特征,第三層學到的是人臉輪廓的特征,這三層構成了人臉特征的邏輯層級結構。神經網絡越底層的特征越基礎抽象,比如什么邊角弧線等,而越往上層,就具體和任務相關。是不是很神奇?
一個訓練好的深度學習網絡的內部參數,在底層體現了通用和基礎的特征,而越到高層,越和特定任務相關。這是深度學習神經網絡一個特別棒的特性。
人們開始動腦筋了,既然是這樣,那么是不是可以先用標準的大數據集比如ImageNet來做深度學習網絡的「預訓練」呢?反正那么多層的神經網絡里,大多數的層級都和特定任務關系不大,我們只需要把通用大數據預訓練得到的網絡模型結果,再結合任務相關的那點可憐的標注數據去微調(Fine-tuning)高層的網絡參數,使得高層參數輸出更匹配當前領域的任務,不就 OK 了嗎?
這樣一來,原本因為數據不足而無法訓練的特定任務也能解決了。即便任務的訓練數據不缺,先通過預訓練過程也能極大的加快特定任務訓練的完成速度。預訓練這種通吃的解決方案人見人愛,很快在圖像處理領域廣泛流行開來。
06
自然語言 AI 的深度進化
首先呢,自然語言處理的研究里,有個基本概念叫做「語言模型」,大致理解起來也簡單,就是想辦法打造一個核心函數 P,這個函數通過一個句子里前面的所有單詞來計算下一個單詞的概率大小。一句話里的單詞總是順序出現的,每個單詞都可以通過前面所有單詞計算出這么一個概率,把所有這些單詞的概率乘起來,總概率數值越大,說明這越像是人說出的話。
怎么構造這個神奇的函數 P 是 AI 科學家的事情,但讀者們一定可以明白,有了這個牛逼的「語言模型」函數 P,計算機就會說人話了。
而從神經網絡學派的同學看來,是不是可以用神經網絡來打造這樣一個語言模型呢?就是說用很多的現成語料,來訓練出一個神經網絡,然后給這個神經網絡模型輸入一句話的前面幾個詞,這個模型就能計算出這句話的下一個單詞。
這就是大名鼎鼎的「神經網絡語言模型 NNLM」。
NNLM 神經網絡語言模型的想法并不是最近冒出來的, 它的歷史要追溯到 20 年前。NNLM 的論文在 2003 年就被發表出來了,而當時,深度學習的概念還只存在于杰弗里·辛頓(Geoffrey Hinton)的腦袋里。
所以,不幸的是,NNLM 當時沒有引起學界多少反響,被埋沒了近 10 年。事實上,在深度學習大火之前,用神經網絡做自然語言處理甚至會被笑話,之前自然語言處理的主流研究方式還是基于統計學的機器學習方法。神經網絡語言模型 NNLM 這個概念太超前時代了。
一直到了 2013 年,在深度學習概念提出來 7 年之后,深度學習神經網絡模型先是在圖像和語音領域大顯神威,自然語言 AI 的同學終于想起了這篇十年前的論文。NNLM 重出江湖,為世人所知:
在 2013 年,AI 研究人員倒騰了一個自然語言處理的處理模型 Word2Vec。顧名思義,「Word2Vec」就是「word to vector,從詞到向量」。研究人員的目標是把一個單詞變成一個數學向量,這個數學量在 NLP 里有個專門的名詞,叫做Word Embedding(詞嵌入)。
為啥要變成一個向量,出發點也很簡單,如果能將每個單詞都能表示為數學空間里的一個向量,那么是不是理論上,在這個向量空間里比較接近的詞,就是意義接近的單詞呢?這樣計算機不就可以方便的理解單詞之間的聯系了嗎?
Word2Vec 翻出了十年前的 NNLM。NNLM 的初衷只是想構建一個神經網絡語言模型,根據前面的詞,來預測后一個是什么詞。NNLM 網絡內部構造了一個隨機初始化的矩陣,通過不斷的訓練,來達成 NNLM 模型預測單詞的目的。
特別湊巧的是,研究人員發現這個訓練出來的內部矩陣的每一行,正好可以作為每個詞的嵌入向量 Word Embedding,這真是得來全不費功夫啊。
NNLM 和 Word2Vec 使用了類似的神經網絡結構,不過因為目的不同,其訓練方法理念是截然不同的。NNLM 作為語言模型,是要看到上文預測下文,所以訓練時輸入的是句子上文單詞;而 Word2Vec 呢?因為它的目標是要找出所有單詞之間意義遠近的數學關系,所以訓練時都使用句子上文和下文作為輸入。
不知道讀者意識到沒,這兩種訓練方式在更高的意義上有著一些本質區別,就好比我們人類說話,都是順序說出來一個個單詞的,說不定呢,人的潛意識或許也是一個類似 NNLM 的 P 函數,自覺不自覺地的決定人說話里的下一個詞是什么。因此只從上文預測下文的訓練方式,貌似天然更契合「生成式」的邏輯。
而 Word2Vec 這種通過上文和下文輸入來訓練的方式,可以比喻成機器來做閱讀理解,就像是我們做語文或英語的閱讀理解,一定是通讀全文,然后根據上下文來理解和判斷問題的答案。這樣的人工智能,就是所謂分析式的 AI。
兩種模型訓練的思路,在后續發展里變成了自然語言模型的兩種路線。本文開頭提到的 OpenAI 生成式模型 GPT 系列,堅定的只用上文進行訓練,用以追求「純粹」的生成;而 Google 公司的大語言模型 Bert,則采用了上文和下文一起訓練的模式,此乃后話。
前面提到,圖像處理領域里使用大規模通用數據進行「預訓練」所取得的效率和成果實在讓人羨慕,而在自然語言處理領域里,其實也有一點點「預訓練」概念的,這個預訓練就是,每個單詞的 WordEmbedding 可以反過來初始化神經網絡的內部參數。
不去探究數學細節,讀者只要知道,這種「預訓練方式」和前面圖像處理領域的低層級網絡預訓練方式有點類似,但問題是利用 WordEmbedding 只能初始化第一層網絡參數,和圖像處理領域的預訓練能有效初始化大多數網絡層級不可同日而語,只能說是一種比較原始初級的「預訓練」了。
但直到 2018 年前,這就是 NLP 領域里能采用的預訓練典型做法了。
采用 WordEmbedding 來初始化 NLP 神經網絡有那么點效果,但沒有期待的那么好。這里面還有一個邏輯上的原因:一個單詞有多義詞問題。所以企圖在一個數學空間里用一個固定的數學向量來表征一個單詞的意義,還要求含義相近的單詞都聚在一起。在面對多義詞的時候,這在邏輯上顯然就是矛盾的。
當然了,聰明的 A 研究人員肯定還是有辦法。既然一個單詞存在多義性,固定的 WordEmbedding 向量無法表達單詞的多個含義,那么是不是可以先訓練好一個單詞的 WordEmbedding,然后在實際使用中,根據句子里的上下文語義去動態調整這個 WordEmbedding 數值,這樣經過調整后的「動態 WordEmbedding」更能準確表達單詞在上下文的具體含義,同時自然的,解決了多義詞的問題。
這個根據當前上下文來動態調整 WordEmbedding 的想法就是頂級學術會議 NAACL 2018 年的最佳論文《Deep contextualized word representation》,這個 NLP 模型命名為 ELMO (Embedding from Language Models, 基于語言模型的詞嵌入)。
ELMO 引入上下文動態調整單詞 WordEmbedding 后,多義詞問題就被徹底解決了,而且比預期的解決得還好:利用 ELMO 改進過的多種不同 NLP 任務,性能上都有幅度不同的提升,最高達到了 25%,不愧是最佳論文。
此外,ELMO 還有一個貢獻,研究人員發現 ELMO 所使用的深度神經網絡模型里,不同層次提取到的特征是有差異的。看到這里,讀者想起了什么沒有?是不是和圖像預訓練的模型層級特征有點像了?
讓我們復習一下,前面講過,圖像處理領域進行大規模預訓練后,把深度學習網絡每層參數做可視化后可以看到,深度學習網絡每一層都對應著不同抽象層級的「特征」,在圖像領域里,就是從底層的線段,到中間層的具體五官細節,再到高層的臉型,等等。
再說一次,「預訓練」為什么是一個特別重要的概念?這是因為好的「預訓練」可以直接利用大量標準通用的的訓練數據(圖像領域就是圖片,NLP 領域就是語料),把深度學習模型調整到了 90% 甚至更高程度的可用狀態,預訓練好的模型最后通過任務相關的少量訓練數據,就能微調至完全勝任各種特定任務,這真是一個很美妙的事情。
那么,ELMO 出現后, 自然語言處理領域的「預訓練」有可能趕上圖像領域了嗎?
遺憾的是,還差一口氣。
因為技術原因,ELMO 模型在抽取文字特征方面還比較弱,這是一個技術上的缺陷,意味著這個模型就無法很好完成 NLP 的「預訓練」夢想:特征都抽取不好,怎么讓網絡里每一層具體表達不同邏輯層級的特征呢...而從技術細節上對比,也會發現 ELMO 這種「預訓練」方法和圖像領域的預訓練方法,兩者在模式上還有很大差異。
自然語 AI 研究人員還需要繼續找到一個方法,希望這個方法能很好的提取出文字的特征,就類似圖像處理領域的神經網絡模型,能很好的提取圖像不同邏輯層面的特征。
07
注意力機制和 Transformer
2017 年 12 月,Google 在頂級機器學習會議 NIPS 上發表了論文《Attention is all you need》,提出在機器翻譯上大量使用自注意力(Self Attention)機制來學習文本表示,并把這種機制模型起了個霸氣的名字:Transformer。
這篇論文一經出世就橫掃了整個自然語言處理學術界,Transformer 迅速的取代了深度學習里傳統的循環神經網絡(RNN)成為了之后的大語言模型的標準配置。
Transformer 是目前 NLP 領域里最強的特征提取器,本質上 Transformer 是一個疊加的'「自注意力機制」構成的深度網絡。
包括我們現在所知道的 OpenAI GPT 系列模型,以及 Google BERT 系列模型,都受到了這篇文章的啟發采用了部分 Transformer 的架構,從而取得了突破性的效果。
先說個題外話,筆者感慨,論文是否牛逼,一看題目就知道,這篇論文連題目都如此特別和霸氣。
話說回來,什么是注意力機制?深度學習里的注意力機制其實是一種思想,參考借鑒了人類的注意力思維方式。
視覺注意力機制是人類視覺所特有的大腦信號處理機制,我們的眼睛會快速掃描全局圖像,得到需要重點關注的區域,就是所謂的注意力焦點后,再進一步對相關區域投入更多的關注。這是人類在長期進化中獲得的一種生存機制,極大提高了人類信息處理的效率和準確性。
深度學習的注意力機制在概念上參照了人類的視覺注意力機制,核心目標就是從眾多信息里選擇出對當前任務更重要和關鍵的信息。
具體到 NLP 自然語言處理領域里,在之前,注意力機制一般是指輸出句子里某個詞和輸入句子每個詞之間的相似度。這也很好理解,就是去尋求問題(輸入)和答案(輸出)之間的關系么。
但 Google 這篇的特別之處,是明確指出了,我們其實不需要先考慮輸入和輸出的關系啊,為什么不參考人類理解語言的方式,首先「學習」一句話內部單詞之間的關系呢?這就是所謂的「Self Attention 自注意力機制」:指的是輸入元素之間,或者輸出元素之間的內在聯系機制。
如上圖所示,Self Attention 自注意力機制尋找到了一個句子里單詞之間的語義特征, 「it」指代的是「the animal」。
稍微想一下,Self Attention 自注意力機制在邏輯意義上非常清晰,它讓機器去理解人類語言每句話里單詞之間的語義關系。
除了邏輯上看起來更有道理,Self Attention 自注意力機制還附帶了一個很大的好處:因為網絡層面拋棄了傳統的 RNN(循環神經網絡)模型,徹底規避了 RNN 不能很好并行計算的困擾,極大提高了模型并行訓練計算的效率。更不用說,Self Attention 自注意力機制只關注部分信息,參數較少,容易訓練。
有趣的是,谷歌研究人員在這篇重要論文里差點使用了「注意力網絡」這樣的命名,只是他們覺得這個名字聽起來實在不夠響亮,后來團隊里一位工程師給起了個名字 Transformer,這看起來就高大上很多了:)
基于自我注意力機制的 Transformer 模型的出現是革命性的,最最重要的一點,它能實現自我監督學習。所謂自我監督,就是不需要標注的樣本,使用標準的語料或者圖像,模型就能學習了。
在 Tranformer 出現之前,我們要訓練一個深度學習模型,必須使用大規模的標記好的數據集合來訓練神經網絡。對數據進行標注只能人工進行,金錢和時間成本都相當高。
讀者如果還有印象,在筆者上一篇關于 AI 繪畫的文章里有講到,對于 AI 繪畫至關重要的跨模態模型 CLIP 之所以成功,是因為它使用了互聯網已經帶文字標記的圖片作為訓練數據,巧妙規避了超大規模數據標記的難題。
而回過頭來,Transformer 的核心是在數學上計算輸入元素之間的關聯(Attention),通過這種模式,Tranformer 成功的消除了訓練數據集的標注需求。
這簡直是感天動地,我們可以想象一下,從今以后,互聯網上或者企業數據庫里海量的文本數據都能直接成為大模型的訓練數據源了。
NVIDIA創始人兼CEO黃仁勛在2022NVIDIAGTC大會上說,Transformer 使自我監督學習成為可能,并無需人類標記數據,AI 領域出現了「驚人的進展」。
因此,Transformer 正在越來越多的領域中發揮作用。比如用于語言理解的 Google BERT,用于藥物發現的 NVIDIA Mega Mol BART 以及 Deep Mind 的 Alpha Fold 2 都要追溯到 Transformer 的突破。
上面又提到了 Google BERT 語言模型。這里要插一句,Google 引以為傲的語言大模型 BERT 的架構和 OpenAI GPT 其實非常像,但有一個簡單而本質的區別,在訓練階段,Google BERT 輸入上文和下文來訓練,OpenAI GPT 系列一直堅持只輸入上文訓練,而結果就是,Google BERT 在體現 AI 分析能力的各種閱讀理解等問題上,都表現上佳;而 OpenAI GPT 術業有專攻,在生成式 AI(比如回答各種問題、創造各種文字內容)一騎絕塵。
不夸張的說,Transformer 是迄今為止發明的最強大的模型之一。斯坦福研究人員在 2021 年 8 月的一篇論文把 tranformer 稱之為「基礎模型」(Foundation model),認為它推動了 AI 整個范式的轉變。
08
GPT3,神功初成
受 Google 論文啟發,基于 Transformer 模式的 GPT 系列模型作為 OpenAI 的當紅炸子雞,風頭當下無兩。
GPT 全稱是「Generative Pre-Training」,直譯過來就是「生成式的預訓練」,有意思吧。
如前文所說,OpenAI 對 GPT 的生成式 AI 有堅定的信念,因此在訓練模型的時候,只選用「上文」來訓練模型,也就是說,GPT 本質上是一個極致的概率模型,它根據上文提示,來猜測下一個單詞應該是什么。
這個堅持雖然在一開始 GPT1 和 GPT2 時代讓其輸出效果稍遜于同期 Google 的語言大模型 BERT,但到了 GPT3 時期,在超級規模網絡參數的加持下,GPT 這個 100% 純粹的生成式 AI 終于迸發出耀眼的光芒,模型輸出效果甚至大幅超越了研究人員的預期。
盡管沒有實證,但筆者很傾向認為 GPT3 的極大成功和 OpenAI 堅定不移的只用上文來訓練模型有著某種必然的關系,人的語言溝通也從來都是按順序表達的,沒有誰先把一句話的最后一個詞說完才回頭考慮上一個詞。從這點來看,GPT 系列模型順應了人類思考的邏輯,最終由量變推動了質變。
終于,借助了 Transformer,GPT 這樣的超大規模語言模型(GPT-3 有 1750 億個參數)在不需要標記數據的情況下,可以借助現成的海量標準數據以及超級算力,得到通用的「預訓練」版本模型。
可能有讀者會繼續問,有了預訓練好的模型版本后,GPT 怎么能以適應各種各樣的特定任務(或者專業一點,「下游任務」)呢?GPT 論文里給出了簡單的改造施工圖,附在這里讀者們有點直觀感性感知即可。總之通過簡單的改造操作,GPT 就能很好適應不同的任務。只需要在輸入部分調整一下就可以了,非常方便。
09
從 GPT3 到 ChatGPT,進化繼續
在歷史長河里走了過來,終于回到了本文開頭的主角 ChatGPT。
如果讀者已經理解了前面關于深度學習神經網絡的變遷和發展之路,再來看 ChatGPT的技術升級,就是特別簡單的事情了。
ChatGPT 是基于 GPT-3.5 模型的魔改。GPT-3.5和3.0的區別,首先是和微軟合作,在微軟的 AzureAI 云服務器上完成了訓練;另一個重要的區別是其訓練數據集里除了文字,還加入了代碼,因此 ChatGPT 現在已經可以寫程序,甚至給現成的代碼找 bug 了。
為什么試用過 ChatGPT 的同學都感覺提升很明顯?一個重要的原因是 ChatGPT 引入了一個新的訓練方法 RLH(論文《Training language models to follow instructions with human feedback》,發表于22年3月),簡單的說,就是用人類反饋的方式加強訓練。
看這個簡單的描述顯然不能感受到技術的提升,不過我們只需要理解,這其實就是在 GPT3 的大數據預訓練之下,再次加強了人類的反饋。
有趣的是,前面基于 Transformer 的通用大數據無監督訓練模式把自然語言的自動學習做到了某種極致,而這個 RLHF 又重新撿起了「手動檔」人類反饋機制,貌似有一點返璞歸真的感覺。仿佛是武功高手練至化境之后,又重新拿起了最早的野球拳,一招使出了無與倫比的超越功力:)
ChatGPT 還有一個很重要的特點,就是針對輸出有效性上做了非常好的調整。使用過 ChatGPT 的同學一定能感覺到,ChatGPT 并非每一個問題都能回答詳盡,但它絕對沒有胡說八道,ChatGPT 的回答和真實世界的情況是相當一致的。做到這點很不容易,也是 ChatGPT 和之前容易亂說一氣的問答 AI 模型前輩最大的不同。
另一個和確保回答有效性同樣值得關注的改進是,ChatGPT 在道德約束上做得很出色。如果我們去詢問一些逾越了道德邊界的問題,或者一些特別敏感的問題,ChatGPT 基本都能察覺和回避。
這讓我們想起了 AI 繪畫大模型最讓人詬病的地方,那就是通過 AI 生成 18+ 圖片,盡管這不是一個技術問題,但對于一個智能內容生成平臺,我們顯然要有方法管理好內容的質量,以及內容的道德邊界。在這一點上,ChatGPT 帶了一個好頭。
ChatGPT 的試用版在 OpenAI 的 RLHF 論文發出半年之后剛剛推出,根據 OpenAI 研究人員自己的說法,內部經過了大量調優,而且即使當下,ChatGPT 還是有很多需要改進的地方。
但無論如何,ChatGPT 已經展示給我們所有人,自然語言生成式 AI 所能達到的全新高度。
10
后記
如果能耐著性子讀到這里,讀者應該自然語言的生成式 AI 的前世今生有了一點概念。
回過頭來再問一次,對于「預訓練」這個深度模型里的重要概念。讀者有沒有想過,預訓練到底是什么?
對,具體而言,預訓練就是在幾千億參數的支持下,類似 GPT 這樣的超級模型灌入了難以計量的文本訓練數據(說不定已經把全世界可以搜刮到的文本都拿來用了)來訓練得到了一個通用大語言模型。
不過,在更高的一個角度去暢想,當我們把全世界的文字信息直接灌進擁有數千億參數的 AI 模型里,模型在網絡的各個層級上抽取和記憶這些文字里的特征信息。
那么,GPT 這樣的超級模型實際上就在通過所謂預訓練方式,學習到了人類所有文字信息的全部特征,直接把人類的語言智慧記在了自己幾千億量級的神經網絡大腦里。
做到了這種程度,真的就像是我們用人類的全部知識體系來培養出了一個超級強大的機器大腦,這個大腦通過它超大規模的人工神經網絡規模接納學習了人類創造的所有內容。
進而,針對人類的任意問,AI 可以做出連圖靈測試都無法區分的真正智能回答。
人類已經馬上無法分辨,在小黑屋后面,那究竟是一個人還是一個 AI 了。
這一天來得比想象更快。
一個能容納和理解人類全部文字知識,并做出真正智能回答的 AI,我們是不是可以簡單認為:今天,真正的機器智能,已然誕生。
游戲葡萄招聘內容編輯,
點擊「閱讀原文」可了解詳情
米哈游人設 | 看懂拳頭 | 心動這一年
2022求職難 | 專訪戰爭2061 | AI作畫
絕區零 | 燕云十六聲 | 原神3.0