教AI變聰明大陸年輕人為大廠打工當「AI錄音員」

發佈時間：2024/09/03 21:02

綜合

小中大

大陸網路巨頭為訓練AI模型，開始找徵求素人聊天錄製語料，稱為「AI錄音員」，圖為北京大鐘寺的字節辦公室的錄音室。圖/取自網易

梅花新聞網李有具/綜合報導

近年來社會關注人工智慧（AI）技術的發展如何改變我們的生活、工作方式。不過在AI先被訓練「變聰明」之前，需要給予大量的資料庫，也意外促使新工作出現。陸媒報導，為了拿到新數據、訓練AI大模型，「字節」等大陸網路巨頭，以單次300元人民幣不等的價格招募「AI錄音員」，定製「語料庫」。

這些每次需要對話錄音3小時的「AI錄音員」，親自做了之後直嘆，看似自由聊天，但是「給AI寫劇本」並不輕鬆。

網易公眾號「字母榜」3日報導，位於北京大鐘寺的「字節」辦公樓，從年初起招募素人為「豆包大模型」錄音，兩人一組、一次3小時，單次結算金額為300元（人民幣，下同）。在成都、太原、貴州等城市，也成了字節、百度、阿里等大廠的AI數據外包之城。

要找到可以訓練AI語言模型的數據，若擅自使用第三方內容，會有被控告的風險。今年8月，OpenAI被超過100位YouTube主播集體訴訟，指其擅自轉錄數百萬個YouTube影片訓練大模型；英偉達、蘋果、Anthropic等巨頭也涉及其中，不少大廠就自力更生、徵人錄音。

例如，字節員工徵人篩選來錄音時，第一個環節是兩人80分鐘的「無主題自由聊天」，要有具體內容，不可以灌水，每個話題不能超過10分鐘，不能大段獨白，要平均對話。第二個環節要錄制有提示詞的60組對話，雖然有劇本可參考，但還是要根據情境編對話。為保證錄音品質，錄音不清晰、吞字或者情緒不足，都要重錄。

另外主修法語、西班牙語的大學生阿霖（化名），也在考研究所期間為AI模型「打工」，去年時打工，去檢查AI識別圖片上的文字內容做「驗收」，檢查是否正確，按照「一個詞或一句話算一個核算框，一個框算1毛錢」，檢查幾百條，一次能賺幾十元。今年阿霖做翻譯類的AI數據標注，1塊多元1條，核對大模型翻譯的法語等小語種是否準確，找出錯誤，用不同顏色標注，看一條得花10-15分鐘。

報導提到，像這樣的AI大廠雖然可以透過第三方直接購買數據，但買來的數據無論是文本、錄音或影片，品質都不可控，也因此大廠大手筆咬牙「買數據」，成為大模型廠商們的新賽點。