Τεχνολογια - Επιστημη

VALL-E: Η AI που μπορεί να μιλήσει με τη φωνή σου

Τρία δευτερόλεπτα δείγματος αρκούν για να «αποκτήσει» τη φωνή του ομιλητή

VALL-E: Η νέα «text to speech» AI της Microsoft μπορεί να μιμηθεί τέλεια τη φωνή οποιουδήποτε ομιλητή, με τον επιτονισμό και το «συναίσθημα» που ταιριάζει σε κάθε κείμενο, βάσει δείγματος μόλις τριών δευτερολέπτων.

17.01.2023, 12:16
Γιώργος Δρίτσας
2’ ΔΙΑΒΑΣΜΑ

Eπιλογές

Γιώργος Τσεμπερόπουλος: Συνέντευξη στην Athens Voice

Κινηματογραφος Γιώργος Τσεμπερόπουλος: Ο σκηνοθέτης του «Υπάρχω» σε μια συνέντευξη εφ’ όλης της ύλης

Σταυρούλα Παναγιωτάκη

Nightstalker: Ο μπασίστας της μπάντας, Ανδρέας Λάγιος, μιλάει στην Athens Voice για το νέο single «Uncut» από το νέο άλμπουμ «Return From The Point Of No Return».

Μουσικη Nightstalker: To «Uncut» μοιράζεται ιστορίες εξαπάτησης

Δημήτρης Αθανασιάδης

TV & Media Τιμωρός: Κάπως λάθος του τα είπαν για τους δημοσιογράφους

Χριστίνα Γαλανοπούλου

VALL-E: Η νέα «text to speech» AI που αναπτύσσεται για να μπορεί να μιμηθεί τη φωνή οποιουδήποτε ομιλητή.

Το VALL-E, ανεπτυγμένο από τη Microsoft, μπορεί να πάρει μια ηχογράφηση τριών δευτερολέπτων και να «μάθει» να μιμείται τη φωνή του ομιλητή. Έτσι, έχει τη δυνατότητα να μετατρέψει ό,τι κείμενο του δώσουμε σε ομιλία, με τη φωνή που του «ταΐσαμε», με ρεαλιστικό επιτονισμό και «συναίσθημα», ανάλογα με το context.

To VALL-E έχει εκπαιδευθεί με το LibriLight, μια «βιβλιοθήκη» 60 χιλιάδων ωρών Αγγλικής ομιλίας, την οποία παρήγαγαν περισσότεροι από 7.000 ομιλητές. «Αντί να σχεδιάσουμε ένα περίπλοκο και συγκεκριμένο δίκτυο για αυτό το πρόβλημα, η τελική λύση είναι να εκπαιδεύσουμε ένα μοντέλο με μεγάλα και διαφορετικά δεδομένα όσο το δυνατόν περισσότερο, με κίνητρο την επιτυχία στον τομέα της σύνθεσης κειμένου», αναφέρει η εργασία που κατέθεσε η ομάδα της Microsoft.

Στην ίδια εργασία, την οποία εξέδωσε το Cornell University, οι συγγραφείς εξηγούν τη διαφορά του VALL-E με άλλες προσεγγίσεις στη σύνθεση ομιλίας από κείμενο. To VALL-E είναι ένα σύστημα μετατροπής κειμένου σε συνθετική ομιλία, γνωστά ως «text-to-speech» (TTS). Τα «TTS» είναι εξαιρετικά διαδεδομένα, αλλά ακόμα και τα πιο προηγμένα από αυτά δεν εκπαιδεύονται με αρκετά μεγάλο όγκο δεδομένων για να πετύχουν την «κλωνοποίηση» ομιλίας με τόσο σύντομο δείγμα, σε τόσο –ενδεχομένως– μέτρια ποιότητα ήχου. Το VALL-E αξιοποιεί τις σύγχρονες εξελίξεις στις δυνατότητες για χρήση περισσότερων δεδομένων στα μοντέλα γλωσσών, για τη σύνθεση ομιλίας.

Χάρη στην ωμή δύναμη του όγκου των δεδομένων, ένα χαρακτηριστικό που ξεχωρίζει το VALL-E είναι η δυνατότητά του να αποδίδει την ομιλία σε υψηλή ποιότητα, σε συνθήκες «zero-shot». Βασικά, χωρίς να έχει εκπαιδευτεί στα συγκεκριμένα «δείγματα» και context τα οποία καλείται να διαχειριστεί. Παρότι δεν είναι διαθέσιμο για δημόσια χρήση, οι δημιουργοί του VALL-E παρέχουν ένα demo. Μέσω αυτού μπορούμε να δούμε το VALL-E σε δράση, ακούγοντας τρεις διαφορετικές ηχογραφήσεις: μια ηχογράφηση του αληθινού ομιλητή (τριών δευτερολέπτων), την ηχογράφηση του αληθινού ομιλητή να διαβάζει το κείμενο που δόθηκε στο AI, και το τελικό αποτέλεσμα που παρήγαγε το VALL-E, μιμούμενο τη φωνή του ομιλητή. Μια τέταρτη ηχογράφηση ονομασμένη «Baseline» μας παίζει το αποτέλεσμα που θα παρήγαγε ένα άλλο «TTS».

Η έμφυτη δυνατότητα του VALL-E να γίνει εργαλείο εξαπάτησης και πλαστοπροσωπίας έσπειρε αμέσως την ανησυχία. Κίνδυνοι όπως η μίμηση ενός οικογενειακού μέλους, προκειμένου να πειστεί το θύμα για την καταβολή ενός χρηματικού ποσού ή η χρήση του VALL-E για δυσφήμιση και διασπορά ψευδών πληροφοριών, είναι απαραίτητο να τεθούν επί τάπητος από τη Microsoft.

Ακολουθήστε την Athens Voice στο Google News κι ενημερωθείτε πρώτοι για όλες τις ειδήσεις

ΠΡΟΣΦΑΤΑ

Advengers: Κατέκτησαν για δεύτερη διαδοχική χρονιά το βραβείο TikTok Grand Winner - Ξεχώρισαν με τις διακρίσεις τους για καμπάνιες στον χώρο των social media.

Οι Advengers αναδείχθηκαν TikTok Grand Winner για δεύτερη συνεχόμενη χρονιά

Newsroom

Πώς ένας αλγόριθμος μπορεί να διακρίνει την προέλευση ενός ουίσκι από τα... αρώματά του

Newsroom

OpenAI: Τώρα οι κάτοικοι των ΗΠΑ μπορούν να καλούν στο τηλέφωνο το ChatGPT

Newsroom

ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ

ΕΙΔΗΣΕΙΣ

Παγκόσμια έρευνα Δεξιοτήτων Ενηλίκων του ΟΟΣΑ - Απογοητευτικά τα ευρήματα για την Ελλάδα - Με δεξιότητες 10χρονου ο ένας στους τέσσερις

Ελλαδα ΟΟΣΑ: Ένας στους τέσσερις ενήλικες στην Ελλάδα έχει δεξιότητες επιπέδου 10χρονου

Newsroom

Bέλγιο: Ζευγάρι βίαζε τις τέσσερις κόρες του ηλικίας 12 έως 21 ετών

Newsroom

Μεσολόγγι: Μια γυναίκα σε έξαλλη κατάσταση έσπασε καφετέρια

Newsroom

Στέλιος Καζαντζίδης: Τι απάντησε η Μαρινέλλα όταν της είπε ότι θα γίνει αγρότης

Newsroom

Τη σφράγιση ψυχαγωγικών παιχνιδιών αποφάσισε ο δήμος Νίκαιας-Ρέντη

Allou Fun Park: Λειτουργούσε ενώ είχε λήξει η άδειά του

Newsroom

ΑΠΟΨΕΙΣ

Πολιτικη & Οικονομια «Ντε Γκρες»: Όταν η απελπισία και η ανοησία χτυπάνε κόκκινο

Λεωνίδας Καστανάς

Εφημερίδα Le Monde και δημοσιογραφικά λαβράκια

Σώτη Τριανταφύλλου

Πώς ο Χαβιέρ Μιλέι προσπάθησε να αλλάξει την Αργεντινή σε δώδεκα μήνες

Άγης Παπαγεωργίου

ΗΠΑ: Ο «Πρόεδρος Μασκ» στη μάχη του προϋπολογισμού

Νικόλας Μολφέτας

ΘΕΜΑΤΑ

Αστεία memes, ατάκες, YOLO βίντεο, viral, αστεία video στο TikTok που ανέβηκαν στο διαδίκτυο και μας έκαναν να γελάσουμε.

Yolo Τα YOLO της Κυριακής 22.12.2024

Λίνα Μανδράκου

Τα YOLO της Δευτέρας 23.12.2024

Λίνα Μανδράκου

Τα YOLO του Σαββάτου 21.12.2024

Λίνα Μανδράκου

Τα 30+1 βιβλία του 2024

Κρυστάλλη Γλυνιαδάκη

Peter Hammill: Κάποιοι θα έλεγαν ότι εξακολουθώ να είμαι αρκετά ακραίος

Δημήτρης Αθανασιάδης

ΣΤΗΛΕΣ

Cosmic Telegram Τα Ζώδια της Δευτέρας 23.12.2024

Αγγελική Μανουσάκη

Cosmic Telegram Τα Ζώδια της Κυριακής 22.12.2024

Αγγελική Μανουσάκη

Cosmic Telegram: Οι αστρολογικές προβλέψεις στην Athens Voice

Cosmic Telegram Τα Ζώδια της Εβδομάδας | 23 - 29 Δεκεμβρίου 2024

Αγγελική Μανουσάκη

Μιλα Μου Βρομικα Μίλα μου βρόμικα: Σιχαίνομαι τα Χριστούγεννα

Τζένη Μελιτά

Σημειωσεις Ενος Μονομανους Οι 20 καλύτεροι δίσκοι του 2024

Γιώργος Φλωράκης

Μια πρόβα της Λυρικής μόνο για μένα: Παρακολουθώντας Μποέμ πριν την πρεμιέρα

Γιάννης Χ. Παπαδόπουλος

Ο Γιάννης Σκουρλέτης σκηνοθετεί τη «Νυχτερίδα» του Στράους στο Ολύμπια

Γιάννης Σκουρλέτης: Η Νυχτερίδα είναι φάντασμα ενός νέου διχασμού

Νίκη - Μαρία Κοσκινά

Ρόμπερτ Έγκερς: Αποκλειστική συνέντευξη για τον Νosferatu

Κωνσταντίνος Καϊμάκης

Απαγόρευση social media στους ανήλικους: Η Ελλάδα στα χνάρια της Αυστραλίας;

Λουκάς Βελιδάκης

ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ

Κινηματογραφος 10 ταινίες για τη «Χριστουγεννιάτικη Ιστορία» του Τσαρλς Ντίκενς

Δημήτρης Αθανασιάδης

Σχεσεις Όταν κάποιοι σου λείπουν (στις γιορτές)

Μανίνα Ζουμπουλάκη

Health & Fitness Η καταθλιπτική διαταραχή των Χριστουγέννων

Εύα Στάμου

Life in Athens Πεδίον του Άρεως: Στην πιάτσα των «ελατάδων» της Αθήνας

Κατερίνα Καμπόσου

ΔΕΙΤΕ ΕΠΙΣΗΣ

Τεχνολογια - Επιστημη Οι Advengers αναδείχθηκαν TikTok Grand Winner για δεύτερη συνεχόμενη χρονιά

Σάρωσαν στα Social Media Awards 2024 σε πληθώρα κατηγοριών

Newsroom 21.12.2024, 11:09

Τεχνολογια - Επιστημη Πώς ένας αλγόριθμος μπορεί να διακρίνει την προέλευση ενός ουίσκι από τα... αρώματά του

Η έρευνα που δημοσιεύθηκε στο περιοδικό «Communications Chemistry»

Newsroom 20.12.2024, 10:08

Τεχνολογια - Επιστημη OpenAI: Τώρα οι κάτοικοι των ΗΠΑ μπορούν να καλούν στο τηλέφωνο το ChatGPT

Δωρεάν για 15 λεπτά ανά μήνα

Newsroom 18.12.2024, 22:34

αστροναυτης, διαστημα, διαστημικος σταθμος

Τεχνολογια - Επιστημη Η Κίνα έσπασε το ρεκόρ της μεγαλύτερης διαστημικής βόλτας

Δύο από τους αστροναύτες της «περπάτησαν» στο διάστημα για εννιά ώρες

Newsroom 18.12.2024, 17:44

Τεχνολογια - Επιστημη Δέκα πράγματα που έκανα με το ChatGPT

Θέλοντας να τεστάρω τις δυνατότητες και τα όρια του εργαλείου, άρχισα να ζητάω συμβουλές θεωρώντας μάλλον απίθανο (και ηθικά απωθητικό) το να το χρησιμοποιήσω. Μέσα σε μισή ώρα είχα αγοράσει μηνιαία συνδρομή.

Ρωμανός Γεροδήμος 17.12.2024, 22:40