Η έρευνα τεχνητής νοημοσύνης της Apple αποκαλύπτει ένα μοντέλο που θα κάνει την παροχή εντολών στην Siri πιο γρήγορη και πιο αποτελεσματική μετατρέποντας οποιοδήποτε δεδομένο σε κείμενο, το οποίο είναι πιο εύκολο να αναλυθεί από ένα μοντέλο μεγάλης γλώσσας.
Η έρευνα Τεχνητής Νοημοσύνης στην Apple συνεχίζει να έχει πλέον μεγάλη ορμή καθώς η εταιρεία πλησιάζει μια δημόσια παρουσίαση των πρωτοβουλιών της για τεχνητή νοημοσύνη τον Ιούνιο κατά τη διάρκεια του WWDC.
Μέχρι στιγμής έχει δημοσιευτεί μια ποικιλία ερευνών, συμπεριλαμβανομένου ενός εργαλείου κινούμενης εικόνας.
Το σημερινό επιστημονικό journal της Apple κοινοποιήθηκε για πρώτη φορά από το VentureBeat. Το έγγραφο περιγράφει λεπτομερώς κάτι που ονομάζεται ReALM — Reference Resolution As Language Modeling.
Το να εκτελεί ένα πρόγραμμα υπολογιστή μια εργασία που βασίζεται σε ασαφείς εισόδους γλώσσας, όπως το πώς ένας χρήστης μπορεί να πει “αυτό” ή “εκείνο”, ονομάζεται ανάλυση αναφοράς. Είναι ένα περίπλοκο ζήτημα προς επίλυση, καθώς οι υπολογιστές δεν μπορούν να ερμηνεύσουν τις εικόνες με τον τρόπο που μπορούν οι άνθρωποι, αλλά η Apple μπορεί να έχει βρει μια βελτιωμένη ανάλυση χρησιμοποιώντας LLM.
Όταν μιλούν οι χρήστες με έξυπνους βοηθούς όπως η Siri, οι χρήστες ενδέχεται να αναφέρουν οποιονδήποτε αριθμό πληροφοριών με βάση τα συμφραζόμενα για αλληλεπίδραση, όπως εργασίες παρασκηνίου, δεδομένα στην οθόνη και άλλες οντότητες.
Οι παραδοσιακές μέθοδοι ανάλυσης βασίζονται σε απίστευτα μεγάλα μοντέλα και σε υλικά αναφοράς όπως εικόνες, αλλά η Apple έχει εξορθολογίσει την προσέγγιση μετατρέποντας τα πάντα σε κείμενο.
Η Apple διαπίστωσε ότι τα μικρότερα μοντέλα ReALM της είχαν παρόμοια απόδοση με το GPT-4 με πολύ λιγότερες παραμέτρους, επομένως είναι καλύτερα για χρήση στη συσκευή.
Η αύξηση των παραμέτρων που χρησιμοποιούνται στο ReALM το έκανε να ξεπεράσει σημαντικά το GPT-4. Ένας λόγος για αυτήν την ενίσχυση απόδοσης είναι η εξάρτηση του GPT-4 στην ανάλυση εικόνων για την κατανόηση των πληροφοριών στην οθόνη. Μεγάλο μέρος των δεδομένων εκπαίδευσης εικόνων βασίζεται σε φυσικές εικόνες, όχι σε ιστοσελίδες που βασίζονται σε τεχνητό κώδικα που είναι γεμάτες με κείμενο, επομένως η άμεση OCR είναι λιγότερο αποτελεσματική.
Η μετατροπή μιας εικόνας σε κείμενο επιτρέπει στο ReALM να παραλείψει να χρειάζεται αυτές τις προηγμένες παραμέτρους αναγνώρισης εικόνας, καθιστώντας την έτσι μικρότερη και πιο αποτελεσματική.
Για παράδειγμα, εάν κάνετε κύλιση σε έναν ιστότοπο και αποφασίσετε ότι θέλετε να καλέσετε την επιχείρηση, λέγοντας απλώς “καλέστε την επιχείρηση” απαιτείται η Siri να αναλύσει τι εννοείτε με βάση το πλαίσιο. Θα μπορούσε να “βλέπει” ότι υπάρχει ένας αριθμός τηλεφώνου στη σελίδα που επισημαίνεται ως ο αριθμός επιχείρησης και να τον καλέσει χωρίς περαιτέρω προτροπή από τον χρήστη.
Aκολουθήστε το AppleWorldHellas στο Google News για να ενημερώνεστε άμεσα για όλα τα νέα άρθρα! Όσοι χρησιμοποιείτε υπηρεσία RSS (π.χ. Feedly), μπορείτε να προσθέσετε το AppleWorldHellas στη λίστα σας με αντιγραφή και επικόλληση της διεύθυνσης https://appleworldhellas.com/feed. Ακολουθήστε επίσης το AppleWorldHellas.com σε Facebook, Twitter, Instagram, και YouTube