VALL-E: Η AI που μπορεί να μιλήσει με τη φωνή σου
Τρία δευτερόλεπτα δείγματος αρκούν για να «αποκτήσει» τη φωνή του ομιλητή
![Γιώργος Δρίτσας Γιώργος Δρίτσας](/images/120x120/3/jpg/files/2022-11-24/dritsas-giorgos.jpg)
![VALL-E: Η AI που μπορεί να μιλήσει με τη φωνή σου VALL-E: Η νέα «text to speech» AI της Microsoft μπορεί να μιμηθεί τέλεια τη φωνή οποιουδήποτε ομιλητή, με τον επιτονισμό και το «συναίσθημα» που ταιριάζει σε κάθε κείμενο, βάσει δείγματος μόλις τριών δευτερολέπτων.](/images/1074x600/jpg/files/2023-01-17/vall-e.jpg)
VALL-E: Η νέα «text to speech» AI που αναπτύσσεται για να μπορεί να μιμηθεί τη φωνή οποιουδήποτε ομιλητή.
Το VALL-E, ανεπτυγμένο από τη Microsoft, μπορεί να πάρει μια ηχογράφηση τριών δευτερολέπτων και να «μάθει» να μιμείται τη φωνή του ομιλητή. Έτσι, έχει τη δυνατότητα να μετατρέψει ό,τι κείμενο του δώσουμε σε ομιλία, με τη φωνή που του «ταΐσαμε», με ρεαλιστικό επιτονισμό και «συναίσθημα», ανάλογα με το context.
To VALL-E έχει εκπαιδευθεί με το LibriLight, μια «βιβλιοθήκη» 60 χιλιάδων ωρών Αγγλικής ομιλίας, την οποία παρήγαγαν περισσότεροι από 7.000 ομιλητές. «Αντί να σχεδιάσουμε ένα περίπλοκο και συγκεκριμένο δίκτυο για αυτό το πρόβλημα, η τελική λύση είναι να εκπαιδεύσουμε ένα μοντέλο με μεγάλα και διαφορετικά δεδομένα όσο το δυνατόν περισσότερο, με κίνητρο την επιτυχία στον τομέα της σύνθεσης κειμένου», αναφέρει η εργασία που κατέθεσε η ομάδα της Microsoft.
Στην ίδια εργασία, την οποία εξέδωσε το Cornell University, οι συγγραφείς εξηγούν τη διαφορά του VALL-E με άλλες προσεγγίσεις στη σύνθεση ομιλίας από κείμενο. To VALL-E είναι ένα σύστημα μετατροπής κειμένου σε συνθετική ομιλία, γνωστά ως «text-to-speech» (TTS). Τα «TTS» είναι εξαιρετικά διαδεδομένα, αλλά ακόμα και τα πιο προηγμένα από αυτά δεν εκπαιδεύονται με αρκετά μεγάλο όγκο δεδομένων για να πετύχουν την «κλωνοποίηση» ομιλίας με τόσο σύντομο δείγμα, σε τόσο –ενδεχομένως– μέτρια ποιότητα ήχου. Το VALL-E αξιοποιεί τις σύγχρονες εξελίξεις στις δυνατότητες για χρήση περισσότερων δεδομένων στα μοντέλα γλωσσών, για τη σύνθεση ομιλίας.
![VALL-E: Η AI που μπορεί να μιλήσει με τη φωνή σου VALL-E: Η νέα «text to speech» AI της Microsoft μπορεί να μιμηθεί τέλεια τη φωνή οποιουδήποτε ομιλητή, με τον επιτονισμό και το «συναίσθημα» που ταιριάζει σε κάθε κείμενο, βάσει δείγματος μόλις τριών δευτερολέπτων.](/images/w734/jpg/files/2023-01-17/model-overview-valle.jpg)
Χάρη στην ωμή δύναμη του όγκου των δεδομένων, ένα χαρακτηριστικό που ξεχωρίζει το VALL-E είναι η δυνατότητά του να αποδίδει την ομιλία σε υψηλή ποιότητα, σε συνθήκες «zero-shot». Βασικά, χωρίς να έχει εκπαιδευτεί στα συγκεκριμένα «δείγματα» και context τα οποία καλείται να διαχειριστεί. Παρότι δεν είναι διαθέσιμο για δημόσια χρήση, οι δημιουργοί του VALL-E παρέχουν ένα demo. Μέσω αυτού μπορούμε να δούμε το VALL-E σε δράση, ακούγοντας τρεις διαφορετικές ηχογραφήσεις: μια ηχογράφηση του αληθινού ομιλητή (τριών δευτερολέπτων), την ηχογράφηση του αληθινού ομιλητή να διαβάζει το κείμενο που δόθηκε στο AI, και το τελικό αποτέλεσμα που παρήγαγε το VALL-E, μιμούμενο τη φωνή του ομιλητή. Μια τέταρτη ηχογράφηση ονομασμένη «Baseline» μας παίζει το αποτέλεσμα που θα παρήγαγε ένα άλλο «TTS».
Η έμφυτη δυνατότητα του VALL-E να γίνει εργαλείο εξαπάτησης και πλαστοπροσωπίας έσπειρε αμέσως την ανησυχία. Κίνδυνοι όπως η μίμηση ενός οικογενειακού μέλους, προκειμένου να πειστεί το θύμα για την καταβολή ενός χρηματικού ποσού ή η χρήση του VALL-E για δυσφήμιση και διασπορά ψευδών πληροφοριών, είναι απαραίτητο να τεθούν επί τάπητος από τη Microsoft.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Τι έδειξε επιστημονική έρευνα
Τα νέα σχόλια θα είναι προσωρινά και ημι-ιδιωτικά
Οι ειδικοί προειδοποιούν ότι δεν αποκλείεται να επαναληφθεί
Ο Βρετανός γιατρός και Παραολυμπιονίκης εκπαιδεύτηκε με επιτυχία από την ESA
Ανοιχτές οι αιτήσεις έως τις 31 Ιουλίου
Τι έγραψε στην πλατφόρμα για την απόφασή του αυτή
Όταν συναντήθηκαν το αμερικανικό διαστημικό σκάφος Apollo 18 και το σοβιετικό Soyuz 19
Πόσο χρήσιμο μπορεί να φανεί σε μελλοντικές αποστολές
Τα πιο δημοφιλή της ψηφιακής εποχής και όσα κρύβονται από πίσω τους
Το ζευγάρι των γαλαξιών Arp 142 βρίσκεται σε διαδικασία συγχώνευσης εδώ και δεκάδες εκατομμύρια χρόνια
Η τεχνολογία θεωρείται πιο αποδοτική και φιλική στο περιβάλλον
Το πιο ολοκληρωμένο απολίθωμα που ανακαλύφθηκε στη Βρετανία εδώ και έναν αιώνα
Γρήγορες και απλές συμβουλές για να οργανώσετε όπως εσείς θέλετε τα email σας
Απλά tips για λήψη φωτογραφιών και βίντεο χωρίς περιορισμούς σε ό,τι συσκευή τηλεφώνου και αν έχετε
Με τα ηχητικά βιβλία, οι αναγνώστες πληρώνουν για να έχουν πρόσβαση σε μια τεράστια βιβλιοθήκη – αλλά ο έλεγχος αυτής της βιβλιοθήκης εναπόκειται τελικά στην πλατφόρμα που τη φιλοξενεί
45 χρόνια από όταν «γεννήθηκε» η συνήθεια να ακούμε τα τραγούδια που αγαπάμε όπου και όποτε θέλουμε
Μπορεί να επουλωθεί μόνο του αν κοπεί
Σε συνεργασία με την αλυσίδα καταστημάτων Toys ‘R’ Us
Παρουσίασε τα πρώτα δεδομένα η αποστολή του Ευρωπαϊκού Οργανισμού Διαστήματος
Έχετε δει 20 από 200 άρθρα.