跳到主要內容

[科技]自然語言處理函式庫 spaCy 2.2 釋出,加入資料增強系統、提升字詞配對速度。


  人工智慧與自然語言處理工具開發廠商 Explosion,釋出了自然語言處理函式庫 spaCy 2.2,新版本設計更精簡乾淨易於開發使用,並且為訓練、評估和序列化都加入新的模型套件與功能,改善除錯和錯誤處理,也大幅度地降低磁碟占用容量。


  spaCy 是一個 Python 的進階自然語言處理函式庫,不只採用最新的人工智慧研究,也講求可用來開發產品的實際可用性,spaCy 內建預訓練的統計模型和單詞向量,以及支援超過 50 種語言的標記化(Tokenization),還含有可應用在標記、解析和命名實體(Entity)辨識的卷積神經網路,並可與深度學習技術整合。spaCy 是一個商業開源軟體以 MIT 授權釋出。

  在新版中,增加了新模型以及資料增強(Data Augmentation)系統。spaCy 2.2 內建重新訓練的統計模型,不只修正錯誤,也改進對小寫字母的處理效能,官方提到,跟其他統計模型遇到的問題一樣,spaCy 的模型也會對訓練資料以及使用者資料產生敏感差異,而目前他們遇到的情形是大小寫與形式的問題。

  由於用於訓練的資料都是經過良好編輯的文字,因此在遇到大小寫與標點不一致的文字,則會出現正確率下降的問題,為此官方開發了新的資料增強系統,並在 spaCy 2.2 這個版本添加新的單詞替換系統,讓開發者可於訓練模型的過程,在每一遍訓練資料集的句子隨機子集抽換字詞,以解決資料所產生敏感差異。

  官方也更新了 CLI 工具,以改進訓練和資料開發流程的各種可用性,特別是在文字分類。新版 CLI 除了改善錯誤訊息、更新文件,同時也讓評估指標更詳細,像是在預設情況下,評估現在按實體類型以及文字類別提供精確的統計。新加入的 debug-data 命令,可以用來驗證訓練和開發資料,以獲得有用的統計資料,或發現無效的實體注釋、循環相依項目和低資料的標籤,官方提到,與其開始訓練一段時間後才發現錯誤,不如先在訓練前檢查資料,可以更節省時間。

  由於 spaCy 支援越來越多語言,因此磁碟占用的容量也越來越多,特別是加入可查詢的詞形還原表格,這個表格儲存成 Python 檔案,並在部分情況會變得非常龐大,現在官方把查詢表轉換成 gzip JSON 格式,並移到獨立的套件中,只在需要的時候安裝,根據系統的不同,spaCy 安裝縮小 5 到 10 倍。

  spaCy 2.2 新的 DocBin 類別可以更加有效率的序列化 Doc 集合,更快地把一組 Doc 物件序列化或是反序列化,並自動處理許多細節,在開發者搭配多重處理函式庫 Dask 使用時會特別方便。spaCy 以前用於字詞配對的的 PhraseMatcher 演算法,可以輕鬆擴展到大型查詢集,但這個演算法在較少的查詢時,表現反而不一定很快,而這造成不直覺的效能特徵,spaCy 2.2 使用了新的 trie 演算法,這個演算法是基於標記而非字詞,因此配對速度很快,少量查詢速度快 20 倍,即使處理一萬個查詢速度也快上 5 倍。

這個網誌中的熱門文章

[娛樂]玩了多年的撲克牌,其實背後是結合工程、歷史、設計的大學問!

  全世界各地的人們都知道撲克牌,也都有和撲克牌打過交道,幾乎每個地方都宣稱撲克牌是自己的發明成果。中國人認為撲克牌最早起源於十二、十三世紀南宋時期傳出的中國的葉子戲(按照四季分為四種類別)。法國人則認為撲克牌是由塔羅牌演變而成,而英國人則表示自己是在所有經過認證的記錄資料中最早提到紙牌遊戲的國家。   現在,大家可能都知道怎樣玩「二十一點」或者是橋牌,但很少有人會靜下心來想一下,一副撲克牌其實是工程學、設計和歷史多方面融合而成的一個奇蹟。撲克牌不僅是一種休閒娛樂時的消遣工具,也是高額賭博和魔術技巧的練習和展示工具,不僅是一種數學概率模型,甚至有時候也會被當作貨幣或者是機密訊息的傳播媒介。   在這個過程中,撲克牌不同起源的獨特之處也展現了出來。撲克牌的名稱、顏色、標誌和設計根據不同的出處以及玩家不同的想法而發生變化。這一張張的圖形卡片不僅僅是玩具,或者是工具,他們更是展現不同習俗的一種文化印記:   有關撲克牌的誕生地一直眾說紛紜,外界也沒有達成一個確定的共識,但就像火藥、茶和瓷器這些發明一樣,幾乎可以肯定的是撲克牌也是起源於東方。國際撲克牌協會(IPCS)主席 Gejus Van Diggele 也表示:「學者們和歷史學家對撲克牌的確切起源存在分歧,但他們普遍認為撲克牌是由東方向西方進行擴散傳播的。」   中國唐朝時期有史料提到了一種紙牌遊戲,雖然這種遊戲更像是現在的多米諾骨牌,但專家認為這是有關紙牌最早的書面記載材料。歐洲 14 世紀末期的一些參考文獻曾提到一種「撒拉遜人(阿拉伯人的古稱)玩的遊戲」突然傳入歐洲,這表明紙牌不是來源於中國,而是來自阿拉伯半島。   此外,還有一種說法是,紙牌最早是由游牧民族從印度帶來的一種能夠預測命運的卡片,為紙牌的起源打上了更為久遠的一個印記。但無論是哪一種起源,應該都是有一定的商業契機促進了紙牌在遙遠的東方與歐洲之間的傳播,與此同時印刷技術的發展也加速了紙牌跨國界的生產和傳播。   在中世紀的歐洲,紙牌遊戲多是與喝酒、賭博還有其他的一些陋習聯繫在一起。由於紙牌遊戲傳播的廣泛性,以及它給當地所帶來的破壞性,當局決定禁止紙牌遊戲。歷史學家 Michael Dummett 在他的《塔羅牌遊戲》一書中提到了巴黎的一項法令,禁止公民在工作日玩紙牌。後來,紙牌遊戲被教會視為異端邪說,傳教士也紛紛遊說,認為「...

[動畫]《航海王》女帝實力多強?一腳把自己從七武海最末,踢進了前三。

  《航海王》中的海賊女帝波雅漢庫克,集實力、美貌與地位為一身的強大女人,前海軍元帥戰國有一句話評價女帝,戰國說「那個女人很強!」   這句話是在頂上戰爭之前,海軍強制召集七武海,女帝終於響應召集的時候,手下傳回總部戰國知道消息後的評價。讓海軍元帥松一口氣,認為是一個很大的援軍或者說戰力,給出這麼高的評價,足以證明女帝的實力!   女帝在頂上戰爭中的表現也是可圈可點的,全程摸魚,抽空就幫路飛……   可是各種特別篇卻無限削弱女帝的實力,女帝在特別篇中的實力可能懸賞都過不了億,單純就是賣賣肉,襯托襯托路飛,讓路飛英雄救美。   特別篇「最強的賞金獵人西德爾」女帝第一集的魅力值和實力都被無限削弱,特別是特別篇的第一集,堂堂七武海竟然淪落到無數次四次落入險境,被路飛搭救,對面只是一幫背著水槍的雜兵,也能抗拒女帝全果的魅力……   本身女帝身為女子之身,也沒有對戰過同等級的強者,再加上特別篇還要拉出來賣肉吸引人氣,所以自然而然很多人就會先入為主的有女帝七武海最弱的想法!   最新劇場版狂熱行動,終於讓女帝火力全開了一次,這才讓觀眾見識到了女帝展現出完整實力有多強……   三番五次的看到路飛被巴雷特打飛,女帝再也忍不了,變身護夫狂魔,實力毫無保留的全開。   而女帝的一腳,成為了影片的亮點,女帝的一腳飛踢,蹬得全身覆蓋了武裝色霸氣龐大身軀的巴雷特殘渣橫飛……   從畫面效果也能看出這一腳威力有多恐怖,如此龐大的巴雷特仿佛被火車撞了一樣。   可惜巴雷特的武裝色霸氣實在太過強大,女帝不能破防,如果沒有武裝色的話,女帝肯定能把巴雷特攔腰踢斷……公公卡普拿山峰練拳法,孫媳婦漢庫克可以拿山峰練腿功。   女帝的實力可以說沒有短板,九蛇的霸氣本就先進,女帝的體術又這麼強大,再配合上與女帝相輔相成的果實能力,你以為女帝是個依靠果實能力的魅惑法師……?其實女帝是個喜歡用體術近戰的暴力分子!   女帝的這一腳,把自己從原本人以為的七武海最末,踢到了七武海靠前的地位。七武海中鷹眼大熊是毫無爭議的前二,這個第三是明哥,還是甚平亦或是女帝,都有可能,誰也排不出來,個人還是覺得女帝可以爭一爭這個第三。至少女帝實力可以排在七武海中上遊了。

[動畫]《一拳超人》第三季動畫的埼玉英雄視覺圖、特報影片、製作團隊和聲優情報公開。

  以 ONE 與村田雄介所創作的超級英雄題材動作漫畫《一拳超人》為原作,第三季電視動畫公開了主角埼玉視覺圖、特報宣傳影片、製作團隊和聲優陣容等情報。   《一拳超人》電視動畫第一季由 MADHOUSE 製作,於 2015 年 10 月開播;第二季改由 J.C.STAFF 製作,於 2019 年 4 月開播。2022 年 8 月宣布動畫第三季製作消息。目前已知第三季店是動畫將與第二季同樣由 J.C.STAFF 擔綱製作。   由 ONE 擔任原作、村田雄介負責作畫的漫畫作品《一拳超人》,描述就職過程中找不到出路的主角「埼玉」,遭遇到要奪走一位少年生命的螃蟹異變人後,回憶起年少年時「想要成為英雄」的想法,於是奮起戰鬥並救下了少年。重拾對於成為英雄的志向後,埼玉苦練了三年、以掉光所有頭髮為代價,化身成毫無弱點的超級英雄,只需一拳便能輕鬆地擊敗怪獸。之後他與弟子傑諾斯一起加入了英雄協會,開始了與眾多英雄對抗各種怪物的生活。