Πώς η DeepSeek έκανε το άλμα – Ο ειδικός της ΑΙ Σταύρος Βάσσος εξηγεί

Κατά πόσο διαφέρει το «r1» της DeepSeek από το «ο1» της OpenAI που είναι διαθέσιμο μέσα από το ChatGPT;

Γιατί αναστάτωσε τόσο πολύ τον κλάδο της ΑΙ το μοντέλο της DeepSeek

Η κινεζική startup DeepSeek προκάλεσε αναταράξεις στον τομέα της τεχνητής νοημοσύνης με την ανάπτυξη ενός προηγμένου μοντέλου AI, το οποίο προσφέρει επιδόσεις συγκρίσιμες με εκείνες των κορυφαίων αμερικανικών εταιρειών, όπως η OpenAI, αλλά με σημαντικά χαμηλότερο κόστος και μειωμένες απαιτήσεις σε υπολογιστική ισχύ.

Αξιοποιεί την τεχνική mixture of experts, η οποία ενεργοποιεί μόνο τα απαραίτητα υπολογιστικά υποσυστήματα για κάθε συγκεκριμένη εργασία. Αυτή η προσέγγιση επιτρέπει στο σύστημα να λειτουργεί με μεγαλύτερη αποδοτικότητα, μειώνοντας τις απαιτήσεις σε υλικό και ενέργεια. Επιπλέον, η εταιρεία έχει επικεντρωθεί στη βελτιστοποίηση των διαδικασιών εκπαίδευσης του μοντέλου της, επιτυγχάνοντας υψηλές επιδόσεις με σημαντικά χαμηλότερο κόστος σε σύγκριση με τους ανταγωνιστές της. Συγκεκριμένα, ενώ η εκπαίδευση παρόμοιων μοντέλων στις ΗΠΑ κοστίζει περίπου 100 εκατομμύρια δολάρια, η DeepSeek κατάφερε να μειώσει το κόστος σε λιγότερο από 6 εκατομμύρια δολάρια (όπως οι ίδιοι ισχυρίζονται), χρησιμοποιώντας λιγότερα και λιγότερο ισχυρά τσιπ.

Η προσέγγιση της DeepSeek έχει τη δυνατότητα να αλλάξει τα δεδομένα στον τομέα της ΑΙ, καθιστώντας την τεχνολογία πιο προσιτή σε μικρότερες εταιρείες και οργανισμούς με περιορισμένους πόρους. Αυτή η εξέλιξη μπορεί να οδηγήσει σε μια διαφορετική ανάπτυξη της AI, μειώνοντας την εξάρτηση από ακριβό και ενεργοβόρο υλικό.

Ο Δρ. Σταύρος Βάσσος*, AI Architect στην Helvia.io (startup που ειδικεύεται σε λύσεις ΑΙ) ασχολείται με την Τεχνητή Νοημοσύνη πολύ προτού αποκτήσει το τρέχον hype, ως εκ τούτου οι αναλύσεις του χαρακτηρίζονται από ψυχραιμία, που βασίζεται στη γνώση του αντικειμένου.

Κληθείς να απαντήσει γιατί αναστάτωσε τόσο πολύ τον κλάδο της ΑΙ το μοντέλο της DeepSeek, τόνισε ότι «αυτή τη στιγμή ένα από τα πιο "καυτά" θέματα στην Τεχνητή Νοημοσύνη είναι η ανάπτυξη προηγμένων μοντέλων που έχουν τη δυνατότητα να μιμούνται, σε έναν βαθμό, τον ανθρώπινο τρόπο σκέψης για την επίλυση προβλημάτων. Για παράδειγμα, αν ζητήσουμε από τέτοια μοντέλα να μας λύσουν ένα γρίφο, πριν μας δώσουν την τελική απάντηση παράγουν και κάποια ενδιάμεσα βήματα, σαν σκέψεις, κάτι που αναφέρεται συχνά στα αγγλικά ως “reasoning”. Ορισμένοι ειδικοί υποστηρίζουν ότι τέτοιες τεχνολογίες μας φέρνουν πιο κοντά σε μια νέα εποχή όπου οι μηχανές θα μπορούν να σκέφτονται όπως οι άνθρωποι».

Όπως σημειώνει, το μοντέλο που οδηγεί την κούρσα του «reasoning» είναι το «o1» της αμερικανικής OpenAI που έγινε γνωστή στον πιο πολύ κόσμο από την εφαρμογή ChatGPT. «Το ο1 έδειξε ότι μπορεί να λύσει δύσκολα προβλήματα από έναν γνωστό μαθηματικό διαγωνισμό λυκείου (American Invitational Mathematics Examination, AIME), κάτι που δεν μπορούσε να κάνει κανένα άλλο μοντέλο τεχνητής νοημοσύνης πριν από αυτό».

Ο Δρ. Σταύρος Βάσσος

Η εμφάνιση του μοντέλου «r1» από την κινεζική DeepSeek έρχεται να αμφισβητήσει την κυριαρχία της OpenAI, καθώς από τη μία φαίνεται να έχει παρόμοιες δυνατότητες με το «ο1» που ήταν μέχρι τώρα το κορυφαίο μοντέλο στον τομέα του «reasoning», και από την άλλη αναπτύχθηκε με πολύ λιγότερους υπολογιστικούς πόρους από όσους συνήθως χρησιμοποιούνται για τόσο μεγάλα μοντέλα.

«Μάλιστα, οι ΗΠΑ έχουν προσπαθήσει τα τελευταία χρόνια με περιορισμούς στις εξαγωγές να αποκλείσουν εταιρείες κινεζικών συμφερόντων -όπως η DeepSeek- από την πρόσβαση στις πιο εξελιγμένες υπολογιστικές μονάδες που χρησιμοποιούνται για την εκπαίδευση μοντέλων, τις λεγόμενες GPU, ακριβώς για να περιορίσουν την εξέλιξη στον τομέα της τεχνητής νοημοσύνης στην Κίνα», σημείωσε.

Αυτός ο συνδυασμός, ότι δηλαδή το «r1» της DeepSeek είναι στην αιχμή της τεχνολογίας αλλά αναπτύχθηκε με περιορισμένες GPU, έφερε αναστάτωση και στο χρηματιστήριο των ΗΠΑ. «Ένας λόγος είναι ότι για κάποιους το «r1» δείχνει ότι η ζήτηση για ισχυρές GPU ενδέχεται να μην είναι τόσο υψηλή όσο αρχικά εκτιμήθηκε», τόνισε ο Δρ. Βάσσος.

Ως αποτέλεσμα, η μετοχή της Nvidia, η οποία αποτελεί μεγάλο προμηθευτή GPU και είχε επωφεληθεί από την άνοδο της τεχνητής νοημοσύνης, κατέγραψε πτώση αρκετών ποσοστιαίων μονάδων. «Παρ’ ολ’ αυτά, πολλοί υποστηρίζουν και ότι η ανάπτυξη και χρήση μοντέλων τεχνητής νοημοσύνης με πιο οικονομικούς τρόπους ενδέχεται να μεγαλώσει το πεδίο εφαρμογής τους, κάτι που ενισχύει τελικά την ανάγκη για παραγωγή περισσότερων και ισχυρότερων GPU, και ότι η αντίδραση της αγοράς δεν είναι δικαιολογημένη».

DeepSeek: Οι διαφορές από το ChatGPT

Κατά πόσο διαφέρει το «r1» της DeepSeek από το «ο1» της OpenAI που είναι διαθέσιμο μέσα από το ChatGPT; «Ένας άνθρωπος που θα μιλήσει με τα δυο αυτά μοντέλα θα δει αμέσως κάποιες ομοιότητες, αλλά και κάποιες σημαντικές διαφορές. Κατ’ αρχάς, και τα δυο μοντέλα λειτουργούν παράγοντας ενδιάμεσα “βήματα σκέψης” πριν δώσουν μια τελική απάντηση. Το μεν o1, όμως, δεν δίνει στο χρήστη τη δυνατότητα να δει τα ενδιάμεσα βήματα και απλώς ενημερώνει ότι “σκέφτεται”, ενώ το r1 δείχνει στον χρήστη αναλυτικά και τις “σκέψεις” που παράγονται».

Ενδεικτικά παραδείγματα

Επίσης, όπως συμβαίνει σε όλα τα μοντέλα παραγωγικής τεχνητής νοημοσύνης, το κάθε ένα έχει ένα λίγο διαφορετικό τρόπο γραφής ανάλογα με τα δεδομένα που χρησιμοποιήθηκαν κατά την εκπαίδευσή του. «Συνομιλώντας με τα δυο αυτά μοντέλα, θα δει κανείς διαφορές και στον τρόπο που αποδέχονται ή όχι το λάθος ή πόσο (υπερβολικά) ευγενικά είναι, καθώς και τι αποφεύγουν να απαντήσουν», λέει ο Δρ. Βάσσος.

Και προσθέτει: «Συγκεκριμένα για το r1 της DeepSeek, όπως έχουν παρατηρήσει πολλοί, φαίνεται ότι έχει λογοκριθεί σε συγκεκριμένες θεματικές ενότητες που αφορούν τη σύγχρονη κινεζική ιστορία. Ας μη ξεχνάμε ακόμα ότι ο στόχος για τα συγκεκριμένα μοντέλα είναι κυρίως να λύσουν μαθηματικά προβλήματα ή να παράγουν κώδικα προγραμματισμού που επιλύει ένα ζητούμενο στόχο».

Τέλος, τα δυο μοντέλα, το o1 της OpenAI και το r1 της DeepSeek έχουν σίγουρα διαφορές στον τρόπο που αναπτύχθηκαν. «Αν και δεν μπορούμε να ξέρουμε όλες τις λεπτομέρειες, γιατί η OpenAI μοιράζεται πολύ λίγες πληροφορίες για το πώς έχουν εκπαιδευτεί τα δικά της μοντέλα, η DeepSeek δημοσιεύει μελέτες που εξηγούν αναλυτικά πώς εκπαιδεύτηκε, ως εκ τούτου μπορεί κανείς να πει ότι για το r1 έχουν γίνει βελτιστοποιήσεις στις τεχνικές που ακολουθεί η ακαδημαϊκή και ερευνητική κοινότητα».

*O Δρ. Σταύρος Βάσσος είναι συνιδρυτής της helvia.ai που παρέχει λύσεις Τεχνητής Νοημοσύνης σε επιχειρήσεις. Είναι ερευνητής στον χώρο της Τεχνητής Νοημοσύνης, κάτοχος διδακτορικού διπλώματος από το Πανεπιστήμιο του Τορόντο στον Καναδά, και διπλώματος Ηλεκτρολόγου Μηχανικού και Μηχανικού Υπολογιστών από το Εθνικό Μετσόβιο Πολυτεχνείο. Πριν από την ίδρυση της της helvia.ai το 2016, εργαζόταν στην Ιταλία ως Επίκουρος Καθηγητής στο Πανεπιστήμιο Sapienza της Ρώμης.