TAIPEI ASSOCIATION OF ADVERTISING AGENCIES台北市廣告代理商業同業公會

聯合學習(Federated Learning)如何解決數據隱私問題?

2021-05-10

在資料共享的大數據時代下,個人資料隱私問題也逐漸被大家重視,現在 AI 面臨的最大挑戰,就是要想出怎麼解決隱私問題,同時優化中心模型演算法。如今「聯合學習」(Federated Learning),做到了!

我們都知道,要成為一個領域的專家,「經驗」正是其中關鍵 ,而 AI(人工智慧)演算法正是基於這樣的概念不斷突破進步。2015 年 10 月,電腦圍棋程式 AlphaGo 擊敗中國出生的法國職業二段圍棋棋士,樊麾,成為第一個無需讓子即可在 19 路棋盤上擊敗圍棋職業棋士的 AI,寫下了歷史,該事件更在 2016 年 1 月發表在知名期刊《Nature》上。

經過這件事後,AI 演算法被大量廣泛運用,科技的進步讓數據無所不在。

隱私法案的出現,讓資料取得出現重重阻力!

2018 年,臉書爆出 劍橋分析事件 後,各國更加重視資料隱私權,並紛紛祭出嚴格的隱私條款。

像歐盟就在 2018 年 5 月通過 GDPR(General Data Protection Regulation)法案, 明確規定所有與個人相關的資訊都是個人數據,對數據的使用行為必須要有用戶的明確授權與同意,這讓數據使用、整合與共享難上加難。

在這樣的挑戰下,Google 於 2016 年推出一項嶄新概念:「聯合學習」(Federated Learning)。

你知道機器學習,但你知道什麼是聯合學習(Federated Learning)嗎?

為了解釋聯合學習的概念,Google 還特地推出一款 漫畫 。

Federated Learning
Google 推出解釋聯合學習的漫畫,圖片來源:Google

簡單來說,聯合學習(federated learning)可以讓人工智慧演算法從不同來源的大量資料中獲得經驗,同時在 「敏感用戶資料」 不離開設備的前提下進行機器學習。有了聯合學習,我們可以使用 「去中心化的數據來訓練中心化的模型」

這是什麼意思呢?因為過去為了優化 AI 演算法,會將用戶數據上傳到資料中心伺服器中進行機器學習。

現在為了保護用戶隱私,加上邊緣運算的趨勢,聯合學習只需要將「模型訓練」導入各個用戶的裝置上,接著演算法就會將「用戶裝置上整合得到的相關數據」,直接送到資料中心伺服器上,這樣就能用來強化中心伺服器的演算力,也能確保用戶隱私受到保護。

聯合學習(Federated Learning):改變醫療科技樣貌

聯合學習這項技術的優點特別適合用在醫療生態系統,徹底改變訓練人工智慧模型的方式。

過去為了保護病患隱私,醫院只能依賴自己收集的資料,很難取得大量的疾病資料,但是在聯合學習的協助下,多個組織可以合作開發模型,又不用彼此直接分享機密的臨床資料。

在經過多次訓練反覆運算的過程中,醫療機構之間的共用模型接觸到的資料量,會比任何單一組織內部擁有的資料量還要更多。

文章開頭提到「要成為專家一定要累積經驗」之談,運用在醫療情境中,就代表要成為醫學專家,少說也要工作 15 年才能培養出特定醫學專業能力,而這樣的專家一年大概要看 1.5 萬個病人,也就是說,這 15 年中醫生總共讀 22.5 萬個病例才能夠達到臨床等級的準確性。

但是如果今天是罕見疾病,就算是一位有 30 年經驗的專家,在醫學生涯中頂多也只能接觸到 100 個病患。

用去中心化的數據強化中心模型

為了訓練出與醫學專家水準相當的模型, 我們需要將大量病例投到 AI 演算法中,但是為了保護病患隱私,聯合學習不用把資料集中到一處,而是在分散的地方進行多次反覆運算,以訓練深度學習模型。

例如,有三間醫院決定合作開發一個自動分析腦瘤影像的模型。他們就需要使用客戶端伺服器, 省去建立「單一資料湖訓練模型」的過程 , 各參與的醫院只需從每個終端裝置傳送分析結果到「中央伺服器」就能訓練,還能將資料集存放在自己的安全基礎設施中。

中央伺服器再匯總各參與醫院送回的模型,同時將更新後的參數分享給參與的醫院,以便它們能夠繼續在客戶端進行訓練。

如果其中一間醫院決定要離開訓練團隊,模型訓練事宜也不會中斷,因為它並不依賴任何特定資料,新醫院也能選擇隨時加入這項訓練活動。

這只是聯合學習的多種作法之一,而這些作法的共通點是各參與者都能投入自己資料,又獲得完整知識,可謂是各方皆贏的作法。

聯合學習(Federated Learning):解決收集機密臨床資料的挑戰

實施聯合學習依舊要謹慎,以確保患者資料的安全無虞,不過聯合學習或許有機會解決部分需要收集機密臨床資料之方法所面臨的挑戰。

這麼一來就變得更難拿取機密的患者資料,聯合學習讓醫療團隊可以建立規模更龐大多元的資料集,以訓練其 AI 演算法。

規模大的醫院網路可以提供協同作業的程度,且享有跨機構取得安全資料的優點;規模較小的社區醫院與鄉村醫院則能取得專家級的 AI 演算法。

這麼一來便能將人工智慧帶到醫療照護環境,將來自單位的大量多元資料納入模型開發作業,又能遵守在本地管理臨床資料的要求。

Nvidia 利用聯合學習開發醫療影像 AI 系統

最近 Nvidia 與倫敦國王學院(King’s College)合作利用此學習模式,開發醫療用影像的 AI 系統,可在無需建立單一資料湖(Data Lake)的情況下訓練,確保隱私受保護。

總部設於英國的藥物研發聯盟 MELLODDY,旨在證明聯合學習技術能讓製藥領域的合作夥伴享受到兩全其美的優點, 也就是能夠利用全球最大的人工智慧合作藥物化合物資料集進行訓練,又不失去資料隱私。

(以上資料擷取科技報橘)
【本訊息文字圖片未經原提供單位許可,不得任意轉載及連結,如有需求,請洽原資料提供單位。】