- CITY GUIDE
- PODCAST
-
13°
Μεταγλώττιση με AI: Το νέο εντυπωσιακό εργαλείο τεχνητής νοημοσύνης από την Deepdub
Αλλαγή γλώσσας και προφοράς των ηθοποιών για ψυχαγωγία προσιτή σε όλους
Deepdub: Η startup εταιρία κυκλοφόρησε το Accent Control, ένα εργαλείο μεταγλώττισης AI ικανό να ταιριάζει με την προφορά του αρχικού ηθοποιού
Αν κάτι πολλοί από εμάς απολαμβάνουμε, είναι η παρακολούθηση σειρών και ταινιών, τόσο ελληνικών όσο και ξένων παραγωγών. Ορισμένοι μάλιστα είναι αρκετά εξοικειωμένοι με την αγγλική γλώσσα και δεν έχουν ανάγκη ούτε τους υπότιτλους. Κάποιοι άλλοι ωστόσο δεν τους αποχωριζόμαστε εύκολα, με αποτέλεσμα συχνά το ένα μάτι να προσπαθεί να παρακολουθήσει την ταινία και το άλλο να διαβάζει τους μεταφρασμένους διαλόγους για να καταλάβουμε τι πραγματικά συμβαίνει. Οι μεταγλωττίσεις ήταν μια λύση για το πρόβλημα αυτό, ωστόσο δεν είναι λίγες οι περιπτώσεις που το στόμα των ηθοποιών δεν συγχρονίζεται με τα λόγια - αγαπημένο παράδειγμα οι μεξικάνικες σειρές - προκαλώντας στο κοινό γέλιο, μέχρι και αμηχανία, για αυτό που βλέπει.
Deepdub: Αλλαγή γλώσσας και προφοράς μέσω μεταγλώττισης AI
Σε μια εποχή που το streaming αποτελεί μέρος της καθημερινότητας πολλών, με σειρές και ταινίες να ενώνουν θεατές από όλο τον κόσμο, το ζήτημα των γλωσσικών περιορισμών δεν έχει αντιμετωπιστεί ακόμα πλήρως. Για αυτό και η startup τεχνολογίας ήχου Deepdub που ιδρύθηκε το 2019, αποφασίζει με τη βοήθεια τεχνητής νοημοσύνης να συμβάλλει σε μια πιο προσιτή ψυχαγωγία. Με χρήση συναισθηματικού μοντέλου κειμένου σε ομιλία (eTTS) 2.0 και πολυτροπικό μοντέλο Large Language που υποστηρίζει περισσότερες από 130 γλώσσες, μας παρουσιάζει το εργαλείο Accent Control. Ένα εργαλείο μεταγλώττισης AI ικανό να προσαρμόζεται με την προφορά του αρχικού ηθοποιού.
Τι είναι το συναισθηματικό και πολυτροπικό μοντέλο;
Η αλήθεια είναι πως από τότε που εμφανίστηκε η τεχνητή νοημοσύνη, ερχόμαστε αντιμέτωποι με όλο και περισσότερες άγνωστες λέξεις και έννοιες. Όσον αφορά στο συναισθηματικό μοντέλο κειμένου σε ομιλία (emotional Text-to-Speech, eTTS) 2.0 πρόκειται για μια τεχνολογία που καταφέρνει να παράγει ομιλία με εκφραστικότητα, χωρίς δηλαδή να ακούγεται ένας «τυποποιημένο» λόγος. Έτσι τα συστήματα TTS (Text-to-Speech) μεταφέρουν το περιεχόμενο του κειμένου σε συνδυασμό με την απόδοσή του, προσθέτοντας φυσικότητα στη φωνητική αναπαραγωγή. Συγκεκριμένα το eTTS 2.0, έρχεται για να βελτιώσει ακόμα περισσότερο την ποιότητα του παραγόμενου λόγου, χρησιμοποιώντας μοντέλα μηχανικής μάθησης (machine learning) για βέλτιστη κατανόηση και αποτελέσματα. Όσον αφορά στο πολυτροπικό μοντέλο Large Language (Multi-Topic Large Language Model), αποτελεί ένα μοντέλο γλωσσικής επεξεργασίας, το οποίο παράγει κείμενο και γνωρίζει πώς να ανταποκριθεί σε ερωτήσεις γύρω από διαφορετικά θέματα. Σκεφτείτε δηλαδή τον τρόπο που λειτουργεί το chatGPT.
Στούντιο Deepdub GO
Το λογισμικό φωνής και μεταγλώττισης της Deepdub το εμπιστεύεται ήδη ένα ποσοστό της βιομηχανίας του Χόλιγουντ, αλλά και οι υπηρεσίες ροής, καθώς προσφέρεται για οποιαδήποτε μορφή και πλατφόρμα εικόνας και ήχου. Από περιεχόμενο στο YouTube μέχρι βιντεοπαιχνίδια. Αυτό που παρέχει η συγκεκριμένη εταιρία είναι προσαρμοσμένα μοντέλα τεχνητής νοημοσύνης, μέσω των οποίων ελέγχονται οι τόνοι, η χροιά των ηθοποιών όταν φτάνει η στιγμή της μεταγλώττισης. Αυτή τη φορά μπορούμε να δούμε αγαπημένους ηθοποιούς να αλλάζουν εθνικότητα διατηρώντας τη φωνή τους, προσδίδοντας ένα πιο φυσικό αποτέλεσμα δίχως να στερεί από την πρωτότυπη ερμηνεία.
Η συγκεκριμένη τεχνολογία χρησιμοποιείται μέσω του Deepdub GO, του εικονικού στούντιο που έχει δημιουργήσει η εταιρία, επιτρέποντας σε συντάκτες να αξιοποιήσουν στο έπακρο τις δυνατότητες μεταγλώττισης AI. Χάρη στο Deepdub GO μεταγλωττίστηκαν εκπομπές κυρίως στα Αγγλικά, καταφέρνοντας να διατηρηθεί η εκφραστικότητα και συναισθηματική απόδοση των προσώπων. Ο ομιλητής ηχογραφεί όλα όσα θέλει να επικοινωνήσει στη μητρική του γλώσσα και έπειτα η τεχνητή νοημοσύνη κάνει τα μαγικά της. Η φωνή μένει ίδια αλλά η γλώσσα αλλάζει.
Λειτουργία Accent Control
Για την απόλυτη εμπειρία μεταγλώττισης και διατήρηση της εκφραστικότητας, η Deepdub κυκλοφόρησε πρόσφατα τη λειτουργία Accent Control. Μέχρι τώρα το λογισμικό της συγκεκριμένης εταιρίας ήξερε πώς να αλλάζει με μαεστρία τη γλώσσα του ομιλητή, τώρα όμως αλλάζει μέχρι και την προφορά, θέλοντας να πετύχει την απόλυτη γλωσσική συμφωνία. Φανταστείτε για παράδειγμα το cast του Harry Potter - γνωστό για τη Βρετανική προφορά του - ξαφνικά να αρχίσει να μιλάει με αυστραλιανή προφορά. Η νέα λειτουργία μεταγλώττισης AI με συναισθηματικό και πολυτροπικό μοντέλο, φαίνεται πολλά υποσχόμενη για το χώρο του θεάματος.
Τεχνολογία LipDub AI
Πρόσφατα μάλιστα η εταιρία του Καναδού επιχειρηματία Bronfman κινήθηκε σε παρόμοια λογική, λανσάροντας την τεχνολογία LipDub AI με στόχο τον συντονισμό χειλιών και μεταγλωττισμένων διαλόγων. Η συγκεκριμένη τεχνολογία έχει εκπαιδευτεί για να χειρίζεται της εκφράσεις των ηθοποιών και να τις προσαρμόζει σε διαφορετικές ξένες λέξεις και διαλέκτους. Είχε ήδη εμφανιστεί το 2020 μέσω μοντέλου τεχνητής νοημοσύνης ανοιχτού κώδικα (Wav2Lip) από ερευνητές του Διεθνούς Ινστιτούτου Τεχνολογίας Πληροφορικής του Χαϊντεραμπάντ, ερχόμενη σήμερα με το LipDub AI ως εξέλιξη του μοντέλου.
Κάπως έτσι Bronfman και Deepdub ενισχύουν την εργαλειοθήκη της τεχνητής νοημοσύνης και αναδιαμορφώνουν τον κόσμο της ψυχαγωγίας και της επικοινωνίας. Ίσως η τεχνολογία ΑΙ έχει να προσφέρει πολλά περισσότερα από όσα νομίζουμε, αρκεί να χρησιμοποιηθεί σωστά και κυρίως ηθικά.
ΠΡΟΣΦΑΤΑ
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Πώς κατάφεραν να το αποτυπώσουν οι αστρονόμοι
«Ένα είδος Google Maps για την κυτταρική βιολογία»
Συνέντευξη με τη Δρ. Ζωή Αικατερινίδη C.E.O. Software Competitiveness International
Επανέρχεται το ζήτημα της δεσπόζουσας θέσης του κολοσσού της τεχνολογίας - Τι σχεδιάζει ο Ντόναλντ Τραμπ
Τι σημασία έχει να αναπτυχθεί η ΤΝ, το διαδίκτυο ή η γενετική μηχανική αν δεν οδηγήσουν στην ευημερία των ανθρώπων και των άλλων έμβιων όντων;
Ο Μαρίνος Σιαπάνης, CEO & Co-Founder της κορυφαίας εταιρείας iGaming, μας εξηγεί τα σχέδια της επόμενης μέρας
Μήπως ήρθε η ώρα να μάθετε βασικά Κλίνγκον, ίσα για να συνεννοείστε στο εστιατόριο;
Πώς μπορεί να χρησιμοποιηθεί η δυνατότητα αυτή από απατεώνες
Το μεγαλύτερο συνέδριο για την Παραγωγική Τεχνητή Νοημοσύνη επιστρέφει στις 18 Νοεμβρίου 2024 στο ΚΠΙΣΝ
Το επόμενο βήμα στη σύγχρονη εκπαίδευση
Το Amazon Haul υπηρετεί ακριβώς το ίδιο μοτίβο με τους ανταγωνιστές του
Βροχή οι 70+ σε κατάστημα τεχνολογίας. Κουνούσαν με απελπισία τις έξυπνες συσκευές που τους έκαναν να νιώθουν βλάκες
Το viral μήνυμα της καμπάνιας της Telekom που μοιράστηκε η COSMOTE με στόχο την ευαισθητοποίηση σχετικά με τις online δημοσιεύσεις παιδικών φωτογραφιών
Το πορτρέτο του μαθηματικού Άλαν Τούρινγκ δημιουργήθηκε από το Ai-Da, ένα από τα πιο προηγμένα ρομπότ στον κόσμο
Για τη Τεχνητή Νοημοσύνη γίνεται λόγος ήδη από το 1950
Το διαστημικό σκάφος απέχει περίπου 24 δισεκατομμύρια χιλιόμετρα από τη Γη
Ευχάριστα τα νέα από την αμερικάνικη διαστημική υπηρεσία
Όλος ο χρόνος του σύμπαντος δεν αρκεί σε έναν χιμπατζή για να γράψει τυχαία έργο του Σαίξπηρ
Μια συζήτηση για τη σημασία του Τηλεσκοπίου Ορίζοντα Γεγονότων και το ποια θα μπορούσε να είναι η μελλοντική κατεύθυνση της Αστρονομίας
Πρωταγωνίστρια και πάλι η Momo
Έχετε δει 20 από 200 άρθρα.