
人工智慧的世界持續帶給我們驚喜,觸角已延伸至人類語言之外。
Google最近(4/14)發表了一項創新的人工智慧模型,名為 DolphinGemma,這是一個專注於分析和產生海豚發聲的開創性專案。這項計畫有潛力徹底改變我們對鯨豚溝通的理解,甚至可能為與這些聰明的海洋哺乳動物進行有意義的互動鋪平道路。
什麼是DolphinGemma?
DolphinGemma 是一款專門設計的人工智慧模型,旨在解讀構成海豚溝通的複雜的喀噠聲、哨聲和脈衝聲。這款輕量級模型僅有 4 億個參數,特別針對在 Google Pixel 手機上運行進行了優化。這種便攜性對於野生海豚計畫的研究人員至關重要,使他們能夠在海豚的自然水下環境中分析牠們的聲音。
DolphinGemma 背後的技術利用了 Google 的 SoundStream tokenizer。這個過程將海豚的聲音轉換為一系列稱為 tokens的單元,使人工智慧能夠理解它們。該模型的架構靈感來自 Google 的 Gemma 系列輕量級和「開放」人工智慧模型,這些模型以其效率和功能而聞名。
雖然初始版本著重於較小的規模,但預計 DolphinGemma 也將擁有更大的變體,可能與標準 Gemma 模型中看到的 2B 和 7B/8B 參數大小一致。這些較大的版本可以提供更複雜的分析,並可能部署在更強大的硬體(如消費級 GPU)或雲端環境中。
解鎖海豚溝通的秘密:
海豚透過各種聲音進行溝通,每種聲音都有其獨特的用途:
- 喀噠聲 (Clicks): 主要用於回聲定位,幫助海豚在水下導航和尋找物體。
- 哨聲 (Whistles): 具有社交功能,包括透過獨特的「簽名哨聲」進行個體識別和維持群體凝聚力。
- 爆發性脈衝聲 (Burst-Pulsed Sounds): 與社交互動相關,可能傳達情緒狀態或意圖,例如在打鬥時觀察到的「嘎嘎聲 (squawks)」或在求偶時發出的「嗡嗡聲 (buzzes)」。
DolphinGemma 的運作方式是分析這些聲音的序列,識別重複模式並預測後續的聲音。這種能力有助於研究人員揭示海豚溝通中潛在的結構和可能的含義,這項任務對於單靠人工分析來說太過複雜。
DolphinGemma 的一個關鍵應用是在 鯨豚聽覺增強遙測 (Cetacean Hearing Augmentation Telemetry, CHAT) 系統 中。該系統利用合成聲音,這些聲音是根據從野生海豚計畫廣泛的聲學資料庫中學習到的模式生成的,用於標記海豚感興趣的物體,例如海草或圍巾。目標是建立一個共享的詞彙,研究人員使用水下揚聲器播放這些人工聲音,好奇的海豚最終可能會學會模仿它們來「請求」物品。DolphinGemma 模型整合到 CHAT 中,並在 Pixel 手機(預計 Pixel 9 將配備防水裝置)上運行,提供即時的哨聲識別,並可以透過骨傳導耳機通知研究人員潛在的「請求」,從而實現快速響應並加強聯繫。
DolphinGemma:一種不同類型 的語言模型
雖然 DolphinGemma 的架構靈感來自於預測人類句子中下一個詞的語言模型,但它經過特別調整,以適應海豚發聲的聲學特性。它利用 SoundStream 等技術來處理和理解聲音序列,使其非常適合這項任務。其針對移動設備的優化使其能夠在實地進行分析,這對於研究人員在自然棲息地研究這些難以捉摸的生物來說是一個顯著的優勢。
物種間溝通的未來?
DolphinGemma 代表了我們對動物溝通理解方面令人興奮的一大步。透過利用人工智慧的力量,我們開始解開海豚「語言」的複雜性。雖然真正的雙向溝通可能仍然遙不可及,但 DolphinGemma 為研究人員提供了寶貴的工具,以更深入地了解海豚的社會生活和溝通模式。這個專案不僅推進了我們的科學知識,也培養了我們對海洋生物智慧和複雜性的更高認識。隨著技術的發展,未來物種間溝通的可能性可能會變得更加真實,為我們與自然世界的關係開闢新的領域。