- CITY GUIDE
- PODCAST
-
14°
VALL-E: Η AI που μπορεί να μιλήσει με τη φωνή σου
Τρία δευτερόλεπτα δείγματος αρκούν για να «αποκτήσει» τη φωνή του ομιλητή
VALL-E: Η νέα «text to speech» AI που αναπτύσσεται για να μπορεί να μιμηθεί τη φωνή οποιουδήποτε ομιλητή.
Το VALL-E, ανεπτυγμένο από τη Microsoft, μπορεί να πάρει μια ηχογράφηση τριών δευτερολέπτων και να «μάθει» να μιμείται τη φωνή του ομιλητή. Έτσι, έχει τη δυνατότητα να μετατρέψει ό,τι κείμενο του δώσουμε σε ομιλία, με τη φωνή που του «ταΐσαμε», με ρεαλιστικό επιτονισμό και «συναίσθημα», ανάλογα με το context.
To VALL-E έχει εκπαιδευθεί με το LibriLight, μια «βιβλιοθήκη» 60 χιλιάδων ωρών Αγγλικής ομιλίας, την οποία παρήγαγαν περισσότεροι από 7.000 ομιλητές. «Αντί να σχεδιάσουμε ένα περίπλοκο και συγκεκριμένο δίκτυο για αυτό το πρόβλημα, η τελική λύση είναι να εκπαιδεύσουμε ένα μοντέλο με μεγάλα και διαφορετικά δεδομένα όσο το δυνατόν περισσότερο, με κίνητρο την επιτυχία στον τομέα της σύνθεσης κειμένου», αναφέρει η εργασία που κατέθεσε η ομάδα της Microsoft.
Στην ίδια εργασία, την οποία εξέδωσε το Cornell University, οι συγγραφείς εξηγούν τη διαφορά του VALL-E με άλλες προσεγγίσεις στη σύνθεση ομιλίας από κείμενο. To VALL-E είναι ένα σύστημα μετατροπής κειμένου σε συνθετική ομιλία, γνωστά ως «text-to-speech» (TTS). Τα «TTS» είναι εξαιρετικά διαδεδομένα, αλλά ακόμα και τα πιο προηγμένα από αυτά δεν εκπαιδεύονται με αρκετά μεγάλο όγκο δεδομένων για να πετύχουν την «κλωνοποίηση» ομιλίας με τόσο σύντομο δείγμα, σε τόσο –ενδεχομένως– μέτρια ποιότητα ήχου. Το VALL-E αξιοποιεί τις σύγχρονες εξελίξεις στις δυνατότητες για χρήση περισσότερων δεδομένων στα μοντέλα γλωσσών, για τη σύνθεση ομιλίας.
Χάρη στην ωμή δύναμη του όγκου των δεδομένων, ένα χαρακτηριστικό που ξεχωρίζει το VALL-E είναι η δυνατότητά του να αποδίδει την ομιλία σε υψηλή ποιότητα, σε συνθήκες «zero-shot». Βασικά, χωρίς να έχει εκπαιδευτεί στα συγκεκριμένα «δείγματα» και context τα οποία καλείται να διαχειριστεί. Παρότι δεν είναι διαθέσιμο για δημόσια χρήση, οι δημιουργοί του VALL-E παρέχουν ένα demo. Μέσω αυτού μπορούμε να δούμε το VALL-E σε δράση, ακούγοντας τρεις διαφορετικές ηχογραφήσεις: μια ηχογράφηση του αληθινού ομιλητή (τριών δευτερολέπτων), την ηχογράφηση του αληθινού ομιλητή να διαβάζει το κείμενο που δόθηκε στο AI, και το τελικό αποτέλεσμα που παρήγαγε το VALL-E, μιμούμενο τη φωνή του ομιλητή. Μια τέταρτη ηχογράφηση ονομασμένη «Baseline» μας παίζει το αποτέλεσμα που θα παρήγαγε ένα άλλο «TTS».
Η έμφυτη δυνατότητα του VALL-E να γίνει εργαλείο εξαπάτησης και πλαστοπροσωπίας έσπειρε αμέσως την ανησυχία. Κίνδυνοι όπως η μίμηση ενός οικογενειακού μέλους, προκειμένου να πειστεί το θύμα για την καταβολή ενός χρηματικού ποσού ή η χρήση του VALL-E για δυσφήμιση και διασπορά ψευδών πληροφοριών, είναι απαραίτητο να τεθούν επί τάπητος από τη Microsoft.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Σάρωσαν στα Social Media Awards 2024 σε πληθώρα κατηγοριών
Η έρευνα που δημοσιεύθηκε στο περιοδικό «Communications Chemistry»
Δωρεάν για 15 λεπτά ανά μήνα
Δύο από τους αστροναύτες της «περπάτησαν» στο διάστημα για εννιά ώρες
Θέλοντας να τεστάρω τις δυνατότητες και τα όρια του εργαλείου, άρχισα να ζητάω συμβουλές θεωρώντας μάλλον απίθανο (και ηθικά απωθητικό) το να το χρησιμοποιήσω. Μέσα σε μισή ώρα είχα αγοράσει μηνιαία συνδρομή.
ΗΠΑ και Κίνα ανταγωνίζονται για τη Σελήνη αλλά εκεί θέλει να φτάσει και η Ινδία
Υπογράφεται το μνημόνιο συνεργασίας για τη δημιουργία Αστεροσκοπίου στις Αψηλές με τοποθέτηση και τηλεσκοπίου
Η νέα επικεφαλής θα συμβάλει στην ανάπτυξη της περιοχής ΕΜΕΑ με τη βοήθεια της τεχνητής νοημοσύνης, σε μια κρίσιμη εποχή
Η κυβέρνηση στρέφει για πρώτη φορά το ενδιαφέρον της στην προστασία από τον ψηφιακό εθισμό
Το Αστεροσχολείο Υπάτης φέρνει τους μαθητές σε επαφή με την επιστήμη της Αστρονομίας και ταξιδεύει τον ανυποψίαστο επισκέπτη στα όρια του Σύμπαντος
Το συνολικό αποτύπωμα της πλατφόρμας είναι περίπου 50 εκατ. μετρικοί τόνοι CO2e
Ένα πρωτοποριακό πρόγραμμα για την τεχνολογική εκπαίδευση
Τα τεχνικά προβλήματα όσον αφορά τη σύνδεση και παραμονή στα εν λόγω μέσα κοινωνικής δικτύωσης, παρατηρούνται μάλιστα και στην Ελλάδα.
Το design και οι επιδόσεις του μέλλοντος στο σήμερα
Από τη θεραπεία αυτοάνοσων νοσημάτων με Τ-κύτταρα μέχρι δείγματα χώματος από τη Σελήνη
Οι επιστήμονες το 1998 αποκάλυψαν ότι αυτή η διαστολή επιταχύνεται, με την υποτιθέμενη αιτία να είναι η σκοτεινή ενέργεια
Τα αποτελέσματα που ανακοινώθηκαν τη Δευτέρα προήλθαν από ένα νέο τσιπ που ονομάζεται Willow
Πάνω από 15 εκατομμύρια διαδικτυακές απειλές το 2024 - Ανάγκη για ενισχυμένα μέτρα προστασίας
Τα ευρήματα μεγάλης έρευνας
Είναι τόσο μεγάλο κομμάτι της ζωής μας πια, που όταν δεν υπάρχει σύνδεση, κάτι μας πιάνει…
Έχετε δει 20 από 200 άρθρα.