2024-02-20 加強資料治理確保品質 生成式AI模型建模干擾少
中研院在2023年10月間推出類似ChatGPT的繁體中文語言模型CKIP-Llama-2-7b,
許多網友實測後卻發現,該系統對於國家相關問題,回覆內容竟然都是中國資訊,
不僅引發民眾熱議,更讓中研院院長因此到立法院接受質詢,最後只能匆促下架。
資料治理(Data Governance)是資料管理的一部分,目的在增加資料的價值,同時將資料相關的風險與成本最小化,
對此,
資料管理協會(DAMA)將資料治理定義為「資料、資料使用及資料來源管理的規劃、監督和控管」,
也就是對資料蒐集、處理、存取與運用的生命週期進行規劃管理,並建立一套查核和監控的機制,
包含策略、角色與權限,使資料在組織內發揮最大的價值。
綜上可知,透過資料治理來擬訂資料蒐集管理策略,以確保資料的品質與安全性、合法性,
已成為當前各國政府與企業組織在使用巨量資料發展AI技術時,所積極採取的方法,
台灣除台北市政府於2020年成立資料治理委員會,負責規劃北市府資料的蒐集、運用及個人資料保護外,
企業界如中國信託亦於2021年成立數據治理委員會,而中華電信則於2022年頒布資料治理策略,
這都顯示在這大數據及AI技術快速發展的時代,如何取得高品質且安全合法的資料,
已成為各界所高度重視的問題,而資料治理似乎此一問題的重要解方。
