本公開(kāi)涉及自動(dòng)化語(yǔ)音辨識(shí),并且更具體地,涉及檢測(cè)由貢獻(xiàn)者提供的針對(duì)校正的建議是有效建議還是無(wú)效建議。
背景技術(shù):
1、越來(lái)越多地通過(guò)網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))從諸如視頻共享服務(wù)的內(nèi)容遞送系統(tǒng)訪問(wèn)媒體(例如,視頻)內(nèi)容。有時(shí)為視頻內(nèi)容提供解說(shuō)詞(定時(shí)文本),使得某些文本與視頻內(nèi)容的某些部分相關(guān)聯(lián)地出現(xiàn)。解說(shuō)詞可以服務(wù)多種目的,包括使視頻內(nèi)容中的對(duì)話對(duì)于聽(tīng)力受損者可理解;使視頻內(nèi)容在嘈雜的環(huán)境中播放使得音頻無(wú)法被聽(tīng)到時(shí)可理解;以及如果視頻內(nèi)容的音頻由于視頻中的背景噪聲而無(wú)法理解,則使視頻內(nèi)容可理解。
2、解說(shuō)詞可以由自動(dòng)化語(yǔ)音辨識(shí)(asr)軟件或服務(wù)(統(tǒng)稱(chēng)為asr系統(tǒng))自動(dòng)生成,該asr系統(tǒng)將媒體內(nèi)容的語(yǔ)音信號(hào)轉(zhuǎn)換為詞的序列(統(tǒng)稱(chēng)為轉(zhuǎn)錄)。然而,轉(zhuǎn)錄可能包括錯(cuò)誤。也就是說(shuō),asr軟件或服務(wù)可能會(huì)錯(cuò)誤地將某個(gè)語(yǔ)音轉(zhuǎn)換為錯(cuò)誤的文本(例如詞)。
技術(shù)實(shí)現(xiàn)思路
1、第一方面是一種方法,該方法包括從自動(dòng)化語(yǔ)音辨識(shí)(asr)工具獲得媒體內(nèi)容的至少一部分的asr轉(zhuǎn)錄;接收針對(duì)媒體內(nèi)容的asr轉(zhuǎn)錄的被校正詞的建議詞;至少使用建議詞或被校正詞獲得特征,其中特征包括與建議詞和被校正詞之間的聲音相似性有關(guān)的特征;將特征輸入到機(jī)器學(xué)習(xí)(ml)模型中以獲得關(guān)于建議詞的有效性的確定;響應(yīng)于建議詞構(gòu)成有效建議,將建議詞并入asr轉(zhuǎn)錄中;以及將asr轉(zhuǎn)錄的至少一部分結(jié)合媒體內(nèi)容的至少一部分傳輸?shù)接脩?hù)裝置。
2、在一些實(shí)現(xiàn)方式中,特征可以包括被校正詞和建議詞之間的編輯距離。
3、在一些實(shí)現(xiàn)方式中,特征可以包括建議詞在asr轉(zhuǎn)錄中的出現(xiàn)頻率。
4、在一些實(shí)現(xiàn)方式中,特征可以包括從其他用戶(hù)獨(dú)立地接收到建議詞的次數(shù)。
5、在一些實(shí)現(xiàn)方式中,聲音相似性是基于建議詞的音素和被校正詞的音素。
6、在一些實(shí)現(xiàn)方式中,特征包括asr工具是否將建議詞視為媒體內(nèi)容的與被校正詞相對(duì)應(yīng)的聲音信號(hào)的可能轉(zhuǎn)錄。
7、在一些實(shí)現(xiàn)方式中,ml模型是使用正樣例來(lái)訓(xùn)練的,所述正樣例是基于媒體內(nèi)容的內(nèi)容所有者的校正而獲得的。
8、在一些實(shí)現(xiàn)方式中,ml模型是使用負(fù)樣例來(lái)訓(xùn)練的,該負(fù)樣例是使用通過(guò)用隨機(jī)文本字符串替換asr錯(cuò)誤的校正的負(fù)采樣而獲得的。
9、在一些實(shí)現(xiàn)方式中,該方法還包括使用建議詞和被校正詞來(lái)對(duì)asr工具進(jìn)行再訓(xùn)練。
10、在一些實(shí)現(xiàn)方式中,將建議詞并入asr轉(zhuǎn)錄中包括在對(duì)asr轉(zhuǎn)錄的校正次數(shù)不超過(guò)校正閾值的條件下將建議詞并入asr轉(zhuǎn)錄中。
11、第二方面是一種方法,該方法包括獲得正訓(xùn)練樣例,每個(gè)正訓(xùn)練樣例包括訓(xùn)練自動(dòng)化語(yǔ)音辨識(shí)(asr)轉(zhuǎn)錄的對(duì)應(yīng)被校正詞的相應(yīng)校正;使用相應(yīng)校正和對(duì)應(yīng)被校正詞獲得第一特征;獲得負(fù)訓(xùn)練樣例,每個(gè)負(fù)樣例包括訓(xùn)練asr轉(zhuǎn)錄的相應(yīng)被校正詞和構(gòu)成針對(duì)相應(yīng)被校正詞的建議替換的對(duì)應(yīng)的隨機(jī)生成的詞;使用相應(yīng)被校正詞和對(duì)應(yīng)的隨機(jī)生成的詞獲得第二特征;以及使用第一特征和第二特征訓(xùn)練機(jī)器學(xué)習(xí)(ml)模型以相對(duì)于對(duì)asr錯(cuò)誤的無(wú)效建議識(shí)別有效建議。第一特征包括與每個(gè)相應(yīng)校正和對(duì)應(yīng)被校正詞之間的聲音相似性有關(guān)的特征。第二特征包括與對(duì)應(yīng)被校正詞和對(duì)應(yīng)的隨機(jī)生成的詞之間的聲音相似性有關(guān)的特征。
12、在一些實(shí)現(xiàn)方式中,該方法還包括接收媒體內(nèi)容,從asr工具獲得針對(duì)該媒體內(nèi)容的asr轉(zhuǎn)錄,接收針對(duì)該媒體內(nèi)容的asr轉(zhuǎn)錄的校正詞的建議詞,以及響應(yīng)于從ml模型獲得的指示建議詞構(gòu)成有效建議的確定,將建議詞并入asr轉(zhuǎn)錄中。在這些實(shí)現(xiàn)方式的一些變體中,將建議詞并入asr轉(zhuǎn)錄中包括在對(duì)asr轉(zhuǎn)錄的校正次數(shù)不超過(guò)校正閾值的條件下將建議詞并入asr轉(zhuǎn)錄中。在這些實(shí)現(xiàn)方式的一些變體中,該方法包括使用建議詞和被校正詞來(lái)對(duì)asr工具進(jìn)行再訓(xùn)練。
13、在一些實(shí)現(xiàn)方式中,第一特征還包括相應(yīng)校正與對(duì)應(yīng)被校正詞之間的第一編輯距離,并且第二特征還包括對(duì)應(yīng)被校正詞與對(duì)應(yīng)的隨機(jī)生成的詞之間的第二編輯距離。
14、在一些實(shí)現(xiàn)方式中,第二特征還包括對(duì)應(yīng)的隨機(jī)生成的詞在訓(xùn)練asr轉(zhuǎn)錄中的出現(xiàn)頻率。
15、在一些實(shí)現(xiàn)方式中,相應(yīng)校正和對(duì)應(yīng)被校正詞之間的聲音相似性是基于相應(yīng)校正的音素和對(duì)應(yīng)被校正詞的音素。
16、第三方面是一種包括存儲(chǔ)器和處理器的裝置。處理器被配置為執(zhí)行存儲(chǔ)在存儲(chǔ)器中的指令,以接收針對(duì)媒體內(nèi)容的自動(dòng)化語(yǔ)音辨識(shí)(asr)轉(zhuǎn)錄的被校正詞的建議詞;至少使用建議詞或被校正詞來(lái)獲得特征;并且響應(yīng)于基于特征的建議詞構(gòu)成有效建議的確定,將建議詞并入asr轉(zhuǎn)錄中。特征包括:第一特征,該第一特征指示asr工具是否將建議詞視為媒體內(nèi)容的與被校正詞相對(duì)應(yīng)的聲音信號(hào)的可能轉(zhuǎn)錄;以及第二特征,該第二特征指示從其他用戶(hù)獨(dú)立地接收到建議詞的次數(shù)。
17、在一些實(shí)現(xiàn)方式中,特征還包括被校正詞和建議詞之間的編輯距離以及建議詞在asr轉(zhuǎn)錄中的出現(xiàn)頻率。
18、在一些實(shí)現(xiàn)方式中,將建議詞并入asr轉(zhuǎn)錄中的指令包括在對(duì)asr轉(zhuǎn)錄的校正次數(shù)不超過(guò)校正閾值的條件下將建議詞并入asr轉(zhuǎn)錄中。
19、下面進(jìn)一步參考附圖、說(shuō)明書(shū)和所附權(quán)利要求書(shū)來(lái)描述這些方面和實(shí)現(xiàn)方式的變體。
1.一種方法,包括:
2.如權(quán)利要求1所述的方法,其中所述特征包括:
3.如權(quán)利要求1或權(quán)利要求2中的一項(xiàng)所述的方法,其中所述聲音相似性是基于所述建議詞的音素和所述被校正詞的音素。
4.如權(quán)利要求1所述的方法,其中所述特征包括asr工具是否將所述建議詞視為所述媒體內(nèi)容的與所述被校正詞相對(duì)應(yīng)的聲音信號(hào)的可能轉(zhuǎn)錄。
5.如權(quán)利要求1至4中的任一項(xiàng)所述的方法,其中所述ml模型是使用正樣例來(lái)訓(xùn)練的,所述正樣例是基于所述媒體內(nèi)容的內(nèi)容所有者的校正而獲得的。
6.如權(quán)利要求5所述的方法,其中所述ml模型是使用負(fù)樣例來(lái)訓(xùn)練的,所述負(fù)樣例是使用通過(guò)用隨機(jī)文本字符串替換asr錯(cuò)誤的校正的負(fù)采樣而獲得的。
7.如權(quán)利要求1至6中的任一項(xiàng)所述的方法,包括:
8.如權(quán)利要求1至7中的任一項(xiàng)所述的方法,其中將所述建議詞并入所述asr轉(zhuǎn)錄中包括:
9.一種方法,包括:
10.如權(quán)利要求9所述的方法,包括:
11.如權(quán)利要求10所述的方法,其中將所述建議詞并入所述asr轉(zhuǎn)錄中包括:
12.如權(quán)利要求10或權(quán)利要求11中的一項(xiàng)所述的方法,包括:
13.如權(quán)利要求9至12中的任一項(xiàng)所述的方法,其中:
14.如權(quán)利要求9至13中的任一項(xiàng)所述的方法,其中所述第二特征還包括所述對(duì)應(yīng)的隨機(jī)生成的詞在所述訓(xùn)練asr轉(zhuǎn)錄中的出現(xiàn)頻率。
15.如權(quán)利要求9至14中的任一項(xiàng)所述的方法,其中所述相應(yīng)校正和所述對(duì)應(yīng)被校正詞之間的聲音相似性是基于所述相應(yīng)校正的音素和所述對(duì)應(yīng)被校正詞的音素。
16.一種裝置,包括:
17.一種裝置,包括:
18.如權(quán)利要求17所述的裝置,其中所述特征包括所述被校正詞和所述建議詞之間的編輯距離以及所述建議詞在所述asr轉(zhuǎn)錄中的出現(xiàn)頻率。
19.如權(quán)利要求17或權(quán)利要求18中的一項(xiàng)所述的裝置,其中將所述建議詞并入所述asr轉(zhuǎn)錄中的所述指令包括以下指令: