Μια μυστική επιστημονική συνάντηση πραγματοποιήθηκε τον περασμένο Μάιο στο Μπέρκλεϊ της Καλιφόρνια.
Τριάντα από τους κορυφαίους μαθηματικούς του κόσμου βρέθηκαν εκεί για να «μονομαχήσουν» με ένα εξελιγμένο chatbot τεχνητής νοημοσύνης.
Αφού έθεσαν στο chabot ερωτήσεις πανεπιστημιακού και ερευνητικού επί δύο ημέρες, διαπίστωσαν έκπληκτοι ότι αυτό ήταν σε θέση να επιλύσει προβλήματα που ακόμη και καταξιωμένοι ειδικοί θεωρούν εξαιρετικά δύσκολα, αναφέρει το Scientific American.
Το συγκεκριμένο chatbot λειτουργούσε με το μεγάλο γλωσσικό μοντέλο (LLM) o4-mini της OpenAI, ξεχωρίζει για την ικανότητά του να κάνει περίπλοκες συλλογιστικές διαδρομές. Αντίστοιχες επιδόσεις φαίνεται να έχει και το Gemini 2.5 Flash της Google. Αν και βασίζονται στην πρόβλεψη της επόμενης λέξης σε μια ακολουθία, όπως και οι προηγούμενες εκδόσεις του ChatGPT, τα νέα αυτά μοντέλα είναι ελαφρύτερα, πιο ευέλικτα και έχουν υποστεί εξειδικευμένη εκπαίδευση και εντατική ενίσχυση από ανθρώπινους εκπαιδευτές. Είναι επομένως ικανά να εμβαθύνουν πολύ περισσότερο σε σύνθετα μαθηματικά προβλήματα απ’ ό,τι τα παραδοσιακά LLM.
Η πρόκληση για τους μαθηματικούς
Για να παρακολουθήσει την πρόοδο του o4-mini, η OpenAI είχε αναθέσει στην Epoch AI, μια μη κερδοσκοπική οργάνωση που αξιολογεί τα LLM, να δημιουργήσει 300 μαθηματικά προβλήματα χωρίς δημοσιευμένες λύσεις. Στο πρότζεκτ που ονομάστηκε FrontierMath, συγκέντρωσε καινοτόμα προβλήματα διαφόρων επιπέδων δυσκολίας, με τα τρία πρώτα επίπεδα να καλύπτουν προκλήσεις προπτυχιακού, μεταπτυχιακού και ερευνητικού επιπέδου. Το τέταρτο επίπεδο ήταν μια σειρά προβλημάτων τόσο δύσκολων που μόνο μια μικρή ομάδα ανθρώπων στον κόσμο θα ήταν σε θέση να τα κατανοήσει, πόσο μάλλον να τα λύσει.
Κάθε πρόβλημα που δεν μπορούσε να λύσει το o4-mini θα απέφερε στον μαθηματικό που το είχε επινοήσει αμοιβή 7.500 δολαρίων. Η ομάδα προχωρούσε αργά αλλά σταθερά στην εύρεση ερωτήσεων και, για να επιταχυνθούν οι διαδικασίες, η Epoch AI διοργάνωσε μια συνάντηση με φυσική παρουσία το Σάββατο 17 και την Κυριακή 18 Μαΐου. Εκεί, οι 30 συμμετέχοντες χωρίστηκαν σε ομάδες των έξι και επί δύο ημέρες προσπαθούσαν να επινοούσαν προβλήματα που θα μπορούσαν να λύσουν οι ίδιοι, αλλά όχι το o4-mini.
Απάντηση διδακτορικού επιπέδου μέσα σε 10 λεπτά
Ο Κεν Όνο, μαθηματικός στο Πανεπιστήμιο της Βιρτζίνια και επικεφαλής της συνάντησης, ηγέτης και κριτής στη συνάντηση, επιχείρησε να δυσκολέψει το μοντέλο με ένα ανοιχτό πρόβλημα της θεωρίας αριθμών – ερώτηση που θα αποτελούσε σοβαρό θέμα διδακτορικής διατριβής. Το o4-mini απάντησε μέσα σε 10 λεπτά. Αρχικά χρειάστηκε 2 λεπτά για να μελετήσει τη σχετική βιβλιογραφία. Τα επόμενα τρία λεπτά, κατασκεύασε ένα απλοποιημένο παράδειγμα για να εξασκηθεί στη λύση του και, πέντε λεπτά μετά, παρουσίασε την πλήρη λύση.
«Δεν ήμουν προετοιμασμένος να αντιμετωπίσω ένα LLM όπως αυτό», δήλωσε νικημένος ο Όνο. «Δεν έχω ξαναδεί τέτοια συλλογιστική σε αλγόριθμους, παρά μόνο σε επιστήμονες. Είναι τρομακτικό».
Αν και οι μαθηματικοί τελικά κατάφεραν να βρουν 10 ερωτήσεις που δεν κατάφερε να απαντήσει το chatbot, έμειναν έκπληκτοι από τις ικανότητες και ιδιαίτερα από την ταχύτητά του. Το o4-mini μπορούσε μέσα σε λίγα λεπτά για να κάνει κάτι για το οποίο ένας άνθρωπος θα χρειαζόταν εβδομάδες ή μήνες.
Στο τέλος της συνάντησης, η ομάδα άρχισε να σκέφτεται πώς θα μπορούσε να είναι το μέλλον για τους μαθηματικούς. Οι συζητήσεις στράφηκαν στο αναπόφευκτο «επίπεδο πέντε» – προβλήματα που δεν μπορούν να λύσουν ούτε οι καλύτεροι μαθηματικοί. Αν η τεχνητή νοημοσύνη φτάσει σε αυτό το επίπεδο, ο ρόλος των μαθηματικών θα υποστεί μια ριζική αλλαγή. Θα μπορούσαν να στραφούν απλώς στο να θέτουν ερωτήσεις και να αλληλεπιδρούν με chatbots για να τα βοηθήσουν να ανακαλύψουν νέες μαθηματικές αλήθειες, όπως κάνει ένας καθηγητής με τους μεταπτυχιακούς φοιτητές του.