前幾天我的文章中有寫網(wǎng)站收錄不斷掉的問題,尤其是小語種的信息收錄不斷的掉,所以這周就打算花點(diǎn)時(shí)間來測試下小語種翻譯的精準(zhǔn)度這件事情。這篇文章就簡單說下我的思路,以及數(shù)據(jù)驗(yàn)證的一些方法。
之前我的那個(gè)小語種網(wǎng)站,是在英語版本上進(jìn)行翻譯的。且使用的是插件方案,也就是做好英語版本后,使用小語種插件的自帶翻譯功能,將英語版本翻譯成各自的小語種版本。
然后我周末花了點(diǎn)時(shí)間仔細(xì)研究了那個(gè)插件的翻譯機(jī)制,發(fā)現(xiàn)這款插件使用的是谷歌翻譯的 API,將網(wǎng)頁內(nèi)容翻譯完成后再填充到頁面的。
這就有點(diǎn)不妙了,畢竟谷歌翻譯的內(nèi)容質(zhì)量還是有待商榷的。比如上圖這個(gè)案例,谷歌翻譯在很多語句的細(xì)節(jié)上做不到「信雅達(dá)」,它只是生硬的將英文翻譯成中文而已。
所以昨天就干脆將全部的小語種全部刪了,不破不立嘛。然后打算自己通過身份設(shè)定來訓(xùn)練下 Prompt,從而再將其運(yùn)用到自己的小語種網(wǎng)站上面。
但問題也就出來了,我現(xiàn)在好像還沒有找到一款合適的能集成 OpenAI 的小語種插件。也就是說,后續(xù)的小語種的翻譯工作,我都需要自己手動(dòng)去完成。
當(dāng)然,看到這里肯定會(huì)有朋友說,要不要試試 DeepL,這個(gè)比谷歌翻譯強(qiáng)很多的翻譯軟件。
其實(shí)這個(gè)方案我昨天晚上就已經(jīng)試過了,總體來講翻譯的效果要比谷歌翻譯好太多了,但是有個(gè)問題不得不承認(rèn),就是真的太貴了。
我昨天晚上申請了 Pro 版本 API,并將其整合到自己的網(wǎng)站上。試用沒問題后,大約翻譯了 40 多個(gè)頁面吧(翻譯成法語),就消耗了 60 多萬次字符了,計(jì)費(fèi)賬單就顯示需要支付 17 美金。
當(dāng)時(shí)看到那個(gè)賬單真的有點(diǎn)不敢相信,畢竟我的網(wǎng)站現(xiàn)在有 150 多個(gè)頁面,就法語這個(gè)單一站點(diǎn)而言,全部翻譯完可能就需要 60 美金左右。試想我要是做 10 個(gè)小語種版本呢,成本不得 600 美金?
所以后續(xù)我還是想以 OpenAI API 為主,通過將網(wǎng)頁上的內(nèi)容整理好,并利用訓(xùn)練好的 Prompt,得到自己想要的小語種數(shù)據(jù)。等數(shù)據(jù)勘驗(yàn)無誤后,再手動(dòng)整理到小語種版本上去。
當(dāng)然,這套方法我現(xiàn)在還沒玩熟,所以先手動(dòng)操作來熟悉下整個(gè)流程,看看過程中會(huì)犯哪些錯(cuò)誤,并踩踩其中的一些坑。等后續(xù)操作熟練后,再來看看能不能有什么自動(dòng)化的方案。
現(xiàn)在初步的設(shè)想是,利用爬蟲將網(wǎng)站源數(shù)據(jù)抓取下來,并分門別類整理到表格中。等這個(gè)過程完成后,再去使用 OpenAI API 的數(shù)據(jù)處理能力,將文本翻譯成對(duì)應(yīng)的小語種文案。
至于小語種文案的更新,我可能會(huì)考慮使用 RPA 的方案去做。畢竟都是些規(guī)律性的操作,完全可以使用程序去自動(dòng)化掉,節(jié)省自己的時(shí)間與精力。
后續(xù)看看這種方案做出來的小語種網(wǎng)站的數(shù)據(jù)情況到底如何,兩相對(duì)比一下(上一版本的小語種數(shù)據(jù)已經(jīng)整理好了),就能知道個(gè)大概了。
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運(yùn)營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營大神,不時(shí)會(huì)分享一些運(yùn)營技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)