國科會「概念抹除」技術 解決AI模型暴力與侵權
記者郭曉蓓/臺北報導
生成式AI帶來創作便利性,但也出現血腥暴力或侵權爭議。國科會今(29)日舉行記者會,發表面向生成式模型的「概念抹除技術-Receler」,無須重新訓練整個AI模型,就可以精準切斷AI對特定風險概念的學習與輸出,是「道高一尺、魔高一丈」的概念橡皮擦,協助打造更被信任的生成式AI應用環境。
這項Receler技術,是由國科會支持、臺灣大學電機系王鈺強教授團隊開發。王鈺強表示,生成式AI可能危害與風險包括生出血腥暴力內容、深偽詐騙與未經授權的風格仿作等,若只靠關鍵字和人工審核,往往出現漏網或誤攔的情況。研究團隊開發的Receler技術,可以在不重新蒐集資料、不重新訓練AI模型的前提下,精準切斷模型對特定高風險概念的聯想與表現能力,例如移除色情裸露、血腥暴力、深偽換臉、商品物件、特定藝術家或品牌風格,且保持原有模型的創作能力。
王鈺強進一步說明,Receler技術突破在於「概念抹除」,是完整移除目標概念,實例測試過程中,用Receler技術避免出現「貓咪」圖像,使用者下指令輸入「三隻貓咪在草地上」, 相同指令下,最後圖像看到三個可愛小孩,「貓咪」完全被抹除,即使輸入CAT或Kitty也不會出現貓咪,類似屏蔽、抹除效果。
王鈺強表示,Receler技術,是採對抗性機器學習技術,舉例圖片焦點有一架飛機,透過這種具交叉注意力機制的概念橡皮擦,可以刻意讓圖片區域不長出飛機;例如要抹除「某藝術家風格」像是吉卜力風,之後輸入相關的描述時,系統會改以中性、不侵權的風格呈現;生成式模型在使用Receler技術避免「暴力」這個概念後,當輸入與暴力相關的直白或隱喻指令時,模型也將不會輸出與暴力相關的圖片。
王鈺強表示,如果一位網球選手打球的照片,要求生成式AI不要出現裸露色情,現行AI生成後,確實沒有出現裸露色情,卻可能出現網球姿勢改變,但Receler技術沒有出現裸露色情,同時不影響姿勢或其他物體,保留原始AI模型創作能力,是一種精準抹除高風險概念。
國科會指出,這項研究成果在2024年底發表於歐洲計算機視覺國際研討會(ECCV),此會議是國際計算機視覺領域三大頂尖會議之一,近一年來,此成果在Google Scholar上引用次數快速增加,且在GitHub開源平臺上獲廣泛下載與應用,已引起國際AI學術界的高度關注與認可。
王鈺強表示,Receler協助平台、教育單位、品牌與政府部門,在維持AI應用性的同時,建立可被信任、可被審核、可持續演進的生成式AI安全創作環境,能有效防止生成式AI產生血腥暴力或侵權內容。未來運用上,這項技術可以與開源模型做對接,輕鬆將敏感物遮掉,不必耗時再重頭訓練AI模型,也節省更多的把關人力,很像開外掛,又能讓AI不學壞。