OpenAI模型Sora用什麼數據訓練?技術長竟回不知

穆拉提13日接受《華爾街日報》訪問時表示,Sora「肯定在今年」推出。圖/翻攝自The Wall Street Journal YouTube頻道
穆拉提13日接受《華爾街日報》訪問時表示,Sora「肯定在今年」推出。圖/翻攝自The Wall Street Journal YouTube頻道

美國媒體報導,研發聊天機器人ChatGPT的知名人工智慧(Al)公司OpenAI首席技術長穆拉提(Mira Murati),近日在接受訪問時,被問及OpenAI使用什麼數據來訓練文字生成影片AI模型Sora,以及是否使用來自多個社群媒體平台的數據。穆拉提含糊指出,並不清楚公司訓練Sora的數據來源,僅強調OpenAI用的是公開或授權的數據,但拒絕透露更多細節。

穆拉提13日接受《華爾街日報》訪問時表示,Sora「肯定在今年」推出,有可能就在幾個月之後。然而當被問及該公司Sora模型的數據來源,穆拉提的回答卻含糊不清,僅說:「我們使用了公開數據和授權數據。」

當《華爾街日報》記者斯特恩(Joanna Stern)進一步提問,Sora是否使用來自YouTube、Instagram或臉書等社群媒體平台的數據進行訓練。穆拉提竟回說,不太清楚、不確定。她補充說,訓練素材來自網路上可公開取用的影片,以及圖像影音素材網站Shuttershock的授權影片,不過,對於是否使用YouTube影片,她則沒給答案。

穆拉蒂2018年開始在OpenAI任職,領導公司一些最受歡迎項目,包括圖像生成模型DALL-E 3、語音識別工具Whisper和公司最新版本的聊天機器人GPT-4。去年11月,OpenAI董事會趕走奧特曼(Sam Altman)後,她曾短暫接任臨時首席執行官。

OpenAI曾多次因AI模型訓練數據而吃上官司。去年12月,《紐約時報》向紐約地方法院控告OpenAI及微軟未經其同意,使用網站新聞內容來訓練AI聊天機器人。有報導稱,另一起集體訴訟在加州提起,指控OpenAI在未經用戶同意下,從網路獲取用戶私人訊息來訓練ChatGPT。OpenAI當時則發出聲明稿指,該公司尊重創作者及所有人,而與《紐約時報》的對話已有相當進展及成果,因此對這番遭控告感到失望。這些圍繞在AI訓練是否符合版權法規等關鍵問題,目前美國相關法院尚未作出裁決。

延伸閱讀

熱門文章

分享