[ad_1]
Åtminstone på ytan verkar Metas senaste AI-framsteg inte vara ett stort steg.
Idag har Meta publicerat en översikt över sitt nya ’Voicebox’ AI-systemsom gör det möjligt för användare att översätta text till ljud, i en rad olika stilar och röster.
Vi introducerar Voicebox, ett nytt banbrytande generativt talsystem baserat på Flow Matching, en ny metod som föreslagits av Meta AI. Den kan syntetisera tal över sex språk, utföra brusborttagning, redigera innehåll, överföra ljudstil och mer.
Mer information om detta arbete & exempel ⬇️
— Meta AI (@MetaAI) 16 juni 2023
Som presenteras i det här översiktsklippet kan Voicebox-systemet ta textinmatningar och översätta dem till ljud, med olika röstalternativ, vilket möjliggör mer avancerad text-till-ljud-översättning, men med lägre inlärnings- och bearbetningskrav än andra liknande erbjudanden.
Även om det, åtminstone på ytan, inte skiljer sig från text-till-ljud-verktygen som vi nu är vana vid – oavsett om vi gillar dem eller inte – på TikTok och andra appar.
Voicebox-översättningarna låter ganska lika – och jag är villig att slå vad om att Meta inte låter mig använda rösten från Raket Raccoon eller a Transformator i dessa nya översättningar.
Men Voicebox-systemet är också mer än bara ett direkt text-till-tal-översättningsverktyg.
Som förklarat av Meta:
”Voicebox kan producera ljudklipp av hög kvalitet och redigera förinspelat ljud – som att ta bort bilhorn eller en hund som skäller – allt samtidigt som ljudets innehåll och stil bevaras. Modellen är också flerspråkig och kan producera tal på sex språk. I framtiden kan multifunktionella generativa AI-modeller som Voicebox ge naturligt klingande röster till virtuella assistenter och icke-spelare-karaktärer i metaversen. De kan tillåta synskadade personer att höra skrivna meddelanden från vänner som läses av AI i deras röster, ge kreatörer nya verktyg för att enkelt skapa och redigera ljudspår för videor och mycket mer.”
Som Meta noterar, låter Voicebox dig också använda röstmodeller för översättning, så att du kan använda ett ljudklipp av en annan person för att få din text-till-tal-översättning att låta som den personen talar, via bara några sekunders ljudingång .
Vilket utan tvekan kommer att leda till en ny rad djupförfalskningar – även om liknande verktyg redan finns. De är bara inte samma sak, och Meta säger att de inte är lika bra som den här nya processen.
Den verkliga fördelen med Voicebox, i en vidsträckt mening, kommer att finnas i översättning, och möjliggör förenklade, modersmålsvariationer av dina textinmatningar på olika språk. Det kan öppna upp för nya möjligheter på flera marknader, samtidigt som den avancerade modelleringen av systemet också kommer att underlätta bredare användningsfall och processer, vilket kan ge andra viktiga fördelar.
Men Meta är också medveten om riskerna.
I det här skedet släpper Meta inte källkod eller app till allmänheten, med hänvisning till ”potentiella risker för missbruk”. Man hoppas kunna hitta fler praktiska, värdefulla användningsfall för tekniken med tiden – så tillkännagivandet idag är mer av en FYI än en lansering som sådan.
Du kan läsa mer om Metas Voicebox-projekt här.
[ad_2]
Source link