近年來社會關注人工智慧(AI)技術的發展如何改變我們的生活、工作方式。不過在AI先被訓練「變聰明」之前,需要給予大量的資料庫,也意外促使新工作出現。陸媒報導,為了拿到新數據、訓練AI大模型,「字節」等大陸網路巨頭,以單次300元人民幣不等的價格招募「AI錄音員」,定製「語料庫」。
這些每次需要對話錄音3小時的「AI錄音員」,親自做了之後直嘆,看似自由聊天,但是「給AI寫劇本」並不輕鬆。
網易公眾號「字母榜」3日報導,位於北京大鐘寺的「字節」辦公樓,從年初起招募素人為「豆包大模型」錄音,兩人一組、一次3小時,單次結算金額為300元(人民幣,下同)。在成都、太原、貴州等城市,也成了字節、百度、阿里等大廠的AI數據外包之城。
要找到可以訓練AI語言模型的數據,若擅自使用第三方內容,會有被控告的風險。今年8月,OpenAI被超過100位YouTube主播集體訴訟,指其擅自轉錄數百萬個YouTube影片訓練大模型;英偉達、蘋果、Anthropic等巨頭也涉及其中,不少大廠就自力更生、徵人錄音。
例如,字節員工徵人篩選來錄音時,第一個環節是兩人80分鐘的「無主題自由聊天」,要有具體內容,不可以灌水,每個話題不能超過10分鐘,不能大段獨白,要平均對話。第二個環節要錄制有提示詞的60組對話,雖然有劇本可參考,但還是要根據情境編對話。為保證錄音品質,錄音不清晰、吞字或者情緒不足,都要重錄。
另外主修法語、西班牙語的大學生阿霖(化名),也在考研究所期間為AI模型「打工」,去年時打工,去檢查AI識別圖片上的文字內容做「驗收」,檢查是否正確,按照「一個詞或一句話算一個核算框,一個框算1毛錢」,檢查幾百條,一次能賺幾十元。今年阿霖做翻譯類的AI數據標注,1塊多元1條,核對大模型翻譯的法語等小語種是否準確,找出錯誤,用不同顏色標注,看一條得花10-15分鐘。
報導提到,像這樣的AI大廠雖然可以透過第三方直接購買數據,但買來的數據無論是文本、錄音或影片,品質都不可控,也因此大廠大手筆咬牙「買數據」,成為大模型廠商們的新賽點。