2/16可說是AI界的大驚奇日,這天Google發布多模態模型Gemini 1.5 Pro版本,OpenAI則是發布了視頻生成模型SORA。當前AI技術的大型語言模型(LLM)不能真正理解原始文本,所有的文本都需要先被轉換為稱為token的數位表示形式,然後將這些token提供給模型進行處理。token代表模型可以理解和生成的最小意義單位,是模型的基礎單元,根據所使用的特定標記化方案,token可以表示單詞、單詞的一部分,甚至只表示字元。
Gemini 1.0 Pro能處理32,000個token的文本、GPT-4 Turbo能處理128,000個token的文本、Claude 2.1能處理200,000個token的文本,這次Gemini 1.5 Pro令人感到驚奇是可以處理的上下文視窗,Google已經成功將這個數字大幅提升,能夠穩定處理高達100萬token(極限為1000萬token),創下最長上下文視窗的紀錄,要知道全套一至七集的哈利波特總單字數也就108萬字。
Gemini 1.5 Pro在處理530,000 token的文本時,能實現100%的檢索完整性,在處理1,000,000 token的文本時達到99.7%的檢索完整性,即便在處理高達10,000,000 token的文本時,檢索準確性仍然高達99.2%。
音訊處理方面,Gemini 1.5 Pro能夠在約十一小時的音訊資料中,100%成功檢索到各種隱藏的音訊片段;視頻處理方面,Gemini 1.5 Pro能夠在約三小時的視頻內容中,100%成功檢索到各種隱藏的視覺元素。
Gemini 1.5 Pro突破桎梏破繭成蝶,它已經可以輕鬆地分析海量的提示詞內容,能夠洞察文本中的對話、事件和細節,展現出對複雜資訊的深刻理解,白話文就是從事處理資訊的工作可能已經跟人類永久性的說再見了。
日新月異在眼前 突飛猛進轉瞬見
恐怖的故事永遠不會僅有一個場景,根據OpenAI官方介紹,創作者只需給出文本指令,SORA便可以根據所提供的文本去創建長達一分鐘的視頻。而這些生成的視頻似乎已經能夠理解運動中的物理世界,就是這個疑惑點讓當晚許多看完展示視頻的科技人嚇到吃手手,那可是人類最後的堡壘,被很多人稱為「世界模型」。
細思極恐,一幅畫面勝過千言萬語,一旦把AI人工智慧大模型給接上視覺鏡頭,把所有現存電影、YouTube和TikTok等各平台視頻都看一遍(或稱訓練一遍),那AI模型對人類世界的理解,將會遠遠超過在網路上的文字學習速度與水平,那種現象級可不光是如虎添翼蛟龍入水般文字所能夠形容。
若是經過海量的影片訓練後,通用人工智慧(AGI)可能就不會是十年、二十年後的問題,來臨的時間可能會大幅縮短,我們此刻就像是一百多年前黃浦江邊的碼頭工人,不知道將來的一百年,科技進展會令自己當時懂得或所擅長的是如此相形見絀自慚形穢。
來的時候還好好的,轉頭間卻發現回不去了。十五個月前看到ChatGPT發布時,僅覺得是個需要趕緊上手來增加工作生產力的工具而已,如今每天一想到即將到來的百年巨變,真的是感到無能為力的天天吃手手。光用文字便能自動生成栩栩如生的視頻,你能想得到?應該連好萊塢(Hollywood)的行業大老們都不敢想吧。
通用人工智慧(AGI)趨勢浪頭似乎已經不能當成炒股票的故事邏輯去想了,隨著OpenAI文生視頻模型SORA自動生成視頻效果的劇透直接將整個科技界炸翻,如果說數得出來的科技大老們都打算All in AI,像微軟、Google、亞馬遜,都已經喊出將AI應用作為長遠的發展重點,我們一般市井小民投資者也應該研究點什麼而不是坐以待斃。
趨勢浪頭已不遠 胸有成竹心頭念
OpenAI創辦人認為新的摩爾定律已然出現,全世界的算力,每隔十八個月便會翻一倍,且不說這個是不是事實,市場似乎已經願意為這講法買單了。
台灣在移動互聯網的趨勢算是缺席,好險天可憐見天佑台灣,百年劇變的通用人工智慧(AGI)大趨勢,包括著「算力、模型及應用場景」這三大因子,全球206個政治實體國同時起跑AGI賽道,好歹台灣在起手式時就已經是卡位到「算力」這一塊,另外手機製造也是台灣的強項,倘若AI手機真會是繼功能機、智慧機之後的第三階段,那也是台灣的機會點。
每當認為自己瞭解某件事,若將其變數放大十倍,你發現自己一無所知,沒人知道模型世界最終會是什麼樣子,AI趨勢最大的主題是它充滿了驚喜,就讓我們一起探索下去。