跳到主要內容

[科技]自然語言處理函式庫 spaCy 2.2 釋出,加入資料增強系統、提升字詞配對速度。


  人工智慧與自然語言處理工具開發廠商 Explosion,釋出了自然語言處理函式庫 spaCy 2.2,新版本設計更精簡乾淨易於開發使用,並且為訓練、評估和序列化都加入新的模型套件與功能,改善除錯和錯誤處理,也大幅度地降低磁碟占用容量。


  spaCy 是一個 Python 的進階自然語言處理函式庫,不只採用最新的人工智慧研究,也講求可用來開發產品的實際可用性,spaCy 內建預訓練的統計模型和單詞向量,以及支援超過 50 種語言的標記化(Tokenization),還含有可應用在標記、解析和命名實體(Entity)辨識的卷積神經網路,並可與深度學習技術整合。spaCy 是一個商業開源軟體以 MIT 授權釋出。

  在新版中,增加了新模型以及資料增強(Data Augmentation)系統。spaCy 2.2 內建重新訓練的統計模型,不只修正錯誤,也改進對小寫字母的處理效能,官方提到,跟其他統計模型遇到的問題一樣,spaCy 的模型也會對訓練資料以及使用者資料產生敏感差異,而目前他們遇到的情形是大小寫與形式的問題。

  由於用於訓練的資料都是經過良好編輯的文字,因此在遇到大小寫與標點不一致的文字,則會出現正確率下降的問題,為此官方開發了新的資料增強系統,並在 spaCy 2.2 這個版本添加新的單詞替換系統,讓開發者可於訓練模型的過程,在每一遍訓練資料集的句子隨機子集抽換字詞,以解決資料所產生敏感差異。

  官方也更新了 CLI 工具,以改進訓練和資料開發流程的各種可用性,特別是在文字分類。新版 CLI 除了改善錯誤訊息、更新文件,同時也讓評估指標更詳細,像是在預設情況下,評估現在按實體類型以及文字類別提供精確的統計。新加入的 debug-data 命令,可以用來驗證訓練和開發資料,以獲得有用的統計資料,或發現無效的實體注釋、循環相依項目和低資料的標籤,官方提到,與其開始訓練一段時間後才發現錯誤,不如先在訓練前檢查資料,可以更節省時間。

  由於 spaCy 支援越來越多語言,因此磁碟占用的容量也越來越多,特別是加入可查詢的詞形還原表格,這個表格儲存成 Python 檔案,並在部分情況會變得非常龐大,現在官方把查詢表轉換成 gzip JSON 格式,並移到獨立的套件中,只在需要的時候安裝,根據系統的不同,spaCy 安裝縮小 5 到 10 倍。

  spaCy 2.2 新的 DocBin 類別可以更加有效率的序列化 Doc 集合,更快地把一組 Doc 物件序列化或是反序列化,並自動處理許多細節,在開發者搭配多重處理函式庫 Dask 使用時會特別方便。spaCy 以前用於字詞配對的的 PhraseMatcher 演算法,可以輕鬆擴展到大型查詢集,但這個演算法在較少的查詢時,表現反而不一定很快,而這造成不直覺的效能特徵,spaCy 2.2 使用了新的 trie 演算法,這個演算法是基於標記而非字詞,因此配對速度很快,少量查詢速度快 20 倍,即使處理一萬個查詢速度也快上 5 倍。

這個網誌中的熱門文章

[動畫]《航海王》女帝實力多強?一腳把自己從七武海最末,踢進了前三。

  《航海王》中的海賊女帝波雅漢庫克,集實力、美貌與地位為一身的強大女人,前海軍元帥戰國有一句話評價女帝,戰國說「那個女人很強!」   這句話是在頂上戰爭之前,海軍強制召集七武海,女帝終於響應召集的時候,手下傳回總部戰國知道消息後的評價。讓海軍元帥松一口氣,認為是一個很大的援軍或者說戰力,給出這麼高的評價,足以證明女帝的實力!   女帝在頂上戰爭中的表現也是可圈可點的,全程摸魚,抽空就幫路飛……   可是各種特別篇卻無限削弱女帝的實力,女帝在特別篇中的實力可能懸賞都過不了億,單純就是賣賣肉,襯托襯托路飛,讓路飛英雄救美。   特別篇「最強的賞金獵人西德爾」女帝第一集的魅力值和實力都被無限削弱,特別是特別篇的第一集,堂堂七武海竟然淪落到無數次四次落入險境,被路飛搭救,對面只是一幫背著水槍的雜兵,也能抗拒女帝全果的魅力……   本身女帝身為女子之身,也沒有對戰過同等級的強者,再加上特別篇還要拉出來賣肉吸引人氣,所以自然而然很多人就會先入為主的有女帝七武海最弱的想法!   最新劇場版狂熱行動,終於讓女帝火力全開了一次,這才讓觀眾見識到了女帝展現出完整實力有多強……   三番五次的看到路飛被巴雷特打飛,女帝再也忍不了,變身護夫狂魔,實力毫無保留的全開。   而女帝的一腳,成為了影片的亮點,女帝的一腳飛踢,蹬得全身覆蓋了武裝色霸氣龐大身軀的巴雷特殘渣橫飛……   從畫面效果也能看出這一腳威力有多恐怖,如此龐大的巴雷特仿佛被火車撞了一樣。   可惜巴雷特的武裝色霸氣實在太過強大,女帝不能破防,如果沒有武裝色的話,女帝肯定能把巴雷特攔腰踢斷……公公卡普拿山峰練拳法,孫媳婦漢庫克可以拿山峰練腿功。   女帝的實力可以說沒有短板,九蛇的霸氣本就先進,女帝的體術又這麼強大,再配合上與女帝相輔相成的果實能力,你以為女帝是個依靠果實能力的魅惑法師……?其實女帝是個喜歡用體術近戰的暴力分子!   女帝的這一腳,把自己從原本人以為的七武海最末,踢到了七武海靠前的地位。七武海中鷹眼大熊是毫無爭議的前二,這個第三是明哥,還是甚平亦或是女帝,都有可能,誰也排不出來,個人還是覺得女帝可以爭一爭這個第三。至少女帝實力可以排在七武海中上遊了。

[財經]仁寶大力押寶醫療「賣一台、賺一台」!繼續拚非 PC:目標營收破 6 成

  仁寶電腦於 1 日舉行法說會,2023 年全年度營收為新台幣 9467.15 億元、年減 12%,主要受到 PC 出貨量下降的影響。仁寶總經理翁宗斌表示,上半年因為景氣影響,PC 產業較去年同期下滑,但下半年可以期待 AI PC 的新應用帶動整體 PC 成長,仁寶也預計在今年 6 月出貨 AI PC 相關產品。   仁寶 PC 去年的出貨量為 3,400 萬台,比前一年 3,900 萬台少了 13%,但符合先前提供的全年度的展望。PC 的營收貢獻是 69%、非 PC 是 31%,全年毛利率都較前一年度增加,主要原因為產品組合的持續改善和效率提升。   「今年重點放在產品的獲利毛利率以及轉型:車電、伺服器以及醫療的新產品轉型來提高獲利。 未來希望在 3 年內把 PC 占比降到 40%、非 PC 是 60%。 」翁宗斌說。   關於伺服器和車電市場的發展預估,翁宗斌表示,伺服器營收每年都有 30~40% 的成長,而 AI 伺服器比重相對去年會更高,客戶需求量至少會超過 2 成,「NVIDIA 的架構除了 GPU 之外,也有推出 AI 伺服器,而仁寶也有參與 AI 伺服器需求供應。」   另外在非 PC 新產品的毛利率貢獻中,醫療相關產品的毛利率相對高,「幾乎是賣一台、賺一台」,翁宗斌說。此外,仁寶於 2 月底參與巴塞隆納移動通訊展(MWC),展出衛星物聯網解決方案,主要以地端的接收站為主進行技術開發。   針對全球設廠的布局, 仁寶主要製造基地還是在中國,產能約在 70~80% ,會配合客戶的需求評估在不同的地區設廠。也因此,數位化和自動化管理系統非常重要,可以解決在不同國家需要適應當地文化的問題。   而伺服器的生產於泰國、越南和中國都有製造,外傳戴爾也有計畫去泰國設廠,法人詢問是否仁寶也會跟進,翁宗斌則回應,「看戴爾願意給我們多少單,我們就多幫它生產。」

[動畫]《一拳超人》第三季動畫的埼玉英雄視覺圖、特報影片、製作團隊和聲優情報公開。

  以 ONE 與村田雄介所創作的超級英雄題材動作漫畫《一拳超人》為原作,第三季電視動畫公開了主角埼玉視覺圖、特報宣傳影片、製作團隊和聲優陣容等情報。   《一拳超人》電視動畫第一季由 MADHOUSE 製作,於 2015 年 10 月開播;第二季改由 J.C.STAFF 製作,於 2019 年 4 月開播。2022 年 8 月宣布動畫第三季製作消息。目前已知第三季店是動畫將與第二季同樣由 J.C.STAFF 擔綱製作。   由 ONE 擔任原作、村田雄介負責作畫的漫畫作品《一拳超人》,描述就職過程中找不到出路的主角「埼玉」,遭遇到要奪走一位少年生命的螃蟹異變人後,回憶起年少年時「想要成為英雄」的想法,於是奮起戰鬥並救下了少年。重拾對於成為英雄的志向後,埼玉苦練了三年、以掉光所有頭髮為代價,化身成毫無弱點的超級英雄,只需一拳便能輕鬆地擊敗怪獸。之後他與弟子傑諾斯一起加入了英雄協會,開始了與眾多英雄對抗各種怪物的生活。