Το ερευνητικό έγγραφο της Google περιγράφει ένα αξιοσημείωτο πλαίσιο που ονομάζεται TW-BERT που βελτιώνει την κατάταξη αναζήτησης χωρίς να απαιτεί σημαντικές αλλαγές. Το TW-BERT είναι ένα πλαίσιο στάθμισης όρων ερωτήματος από άκρο σε άκρο που γεφυρώνει δύο παραδείγματα για τη βελτίωση των αποτελεσμάτων αναζήτησης. Ενσωματώνεται με υπάρχοντα μοντέλα επέκτασης ερωτημάτων και βελτιώνει την απόδοση. Η ανάπτυξη του νέου πλαισίου απαιτεί ελάχιστες αλλαγές.
Η έρευνα αλγορίθμων κατάταξης Google παρουσιάζει το TW-BERT
Η Google ανακοίνωσε ένα αξιοσημείωτο πλαίσιο κατάταξης που ονομάζεται Term Weighting BERT (TW-BERT) που βελτιώνει τα αποτελέσματα αναζήτησης και είναι εύκολο να εφαρμοστεί σε υπάρχοντα συστήματα κατάταξης.
Αν και η Google δεν έχει επιβεβαιώσει ότι χρησιμοποιεί το TW-BERT, αυτό το νέο πλαίσιο είναι μια σημαντική ανακάλυψη που βελτιώνει τις διαδικασίες κατάταξης σε όλους τους τομείς, συμπεριλαμβανομένης της επέκτασης ερωτημάτων. Είναι επίσης εύκολο στην ανάπτυξή του, κάτι που κατά τη γνώμη μου το καθιστά πιο πιθανό να χρησιμοποιηθεί.
Ο TW-BERT έχει πολλούς συν-συγγραφείς, ανάμεσά τους ο Marc Najork, διακεκριμένος ερευνητής στο Google DeepMind και πρώην Ανώτερος Διευθυντής Ερευνητικής Μηχανικής στο Google Research.
Έχει συγγράψει πολλές ερευνητικές εργασίες σε θέματα που σχετίζονται με τις διαδικασίες κατάταξης και σε πολλούς άλλους τομείς.
Τι είναι το TW-BERT;
Το TW-BERT είναι ένα πλαίσιο κατάταξης που εκχωρεί βαθμολογίες (που ονομάζονται σταθμίσεις) σε λέξεις μέσα σε ένα ερώτημα αναζήτησης προκειμένου να προσδιορίσει με μεγαλύτερη ακρίβεια ποια έγγραφα είναι σχετικά με αυτό το ερώτημα αναζήτησης.
Το TW-BERT είναι επίσης χρήσιμο στην επέκταση κάθε ερωτήματος.
Η επέκταση ερωτήματος είναι μια διαδικασία που επαναδιατυπώνει ένα ερώτημα αναζήτησης ή προσθέτει περισσότερες λέξεις σε αυτό (όπως η προσθήκη της λέξης “συνταγή” στο ερώτημα “σούπα κοτόπουλου”) για καλύτερη αντιστοίχιση του ερωτήματος αναζήτησης με έγγραφα.
Η προσθήκη βαθμολογιών στο ερώτημα το βοηθά να προσδιορίζει καλύτερα τι αφορά το ερώτημα.
Παράδειγμα στάθμισης όρου αναζήτησης TW-BERT
Η ερευνητική εργασία προσφέρει το παράδειγμα του ερωτήματος αναζήτησης, “παπούτσια για τρέξιμο Nike”. Με απλά λόγια, οι λέξεις “παπούτσια για τρέξιμο Nike” είναι τρεις λέξεις που πρέπει να κατανοήσει ένας αλγόριθμος κατάταξης με τον τρόπο που ο ερευνητής σκοπεύει να γίνει κατανοητός.
Εξηγούν ότι η έμφαση στο “εκτελούμενο” μέρος του ερωτήματος θα εμφανίσει άσχετα αποτελέσματα αναζήτησης που περιέχουν επωνυμίες εκτός της Nike. Σε αυτό το παράδειγμα, η επωνυμία Nike είναι σημαντική και γι’ αυτό η διαδικασία κατάταξης θα πρέπει να απαιτεί οι υποψήφιες ιστοσελίδες να περιέχουν τη λέξη Nike σε αυτές.
Οι υποψήφιες ιστοσελίδες είναι σελίδες που εξετάζονται για τα αποτελέσματα αναζήτησης.
Αυτό που κάνει το TW-BERT είναι να παρέχει μια βαθμολογία (που ονομάζεται στάθμιση) για κάθε μέρος του ερωτήματος αναζήτησης, έτσι ώστε να έχει νόημα με τον ίδιο τρόπο που κάνει το άτομο που εισήγαγε το ερώτημα αναζήτησης. Σε αυτό το παράδειγμα, η λέξη Nike θεωρείται σημαντική, επομένως θα πρέπει να της δοθεί υψηλότερη βαθμολογία (στάθμιση).
Η άλλη πρόκληση είναι να κατανοήσουμε στη συνέχεια το περιεχόμενο των λέξεων «τρέξιμο» και «παπούτσια» και αυτό σημαίνει ότι η στάθμιση θα πρέπει να κλίνει ψηλότερα για να ενώσει τις δύο λέξεις ως φράση, «παπούτσια για τρέξιμο», αντί να ζυγίζει τις δύο λέξεις ανεξάρτητα.
Επίλυση περιορισμών σε τρέχοντα πλαίσια
Το ερευνητικό έγγραφο συνοψίζει την παραδοσιακή στάθμιση ως περιορισμένη στις παραλλαγές των ερωτημάτων και αναφέρει ότι αυτές οι μέθοδοι στάθμισης που βασίζονται σε στατιστικά αποδίδουν λιγότερο καλά για σενάρια μηδενικής λήψης. Το Zero-shot Learning είναι μια αναφορά στην ικανότητα ενός μοντέλου να λύνει ένα πρόβλημα για το οποίο δεν έχει εκπαιδευτεί. Υπάρχει επίσης μια περίληψη των περιορισμών που είναι εγγενείς στις τρέχουσες μεθόδους επέκτασης όρων. Η επέκταση όρου είναι όταν χρησιμοποιούνται συνώνυμα για την εύρεση περισσότερων απαντήσεων σε ερωτήματα αναζήτησης ή όταν συμπεραίνεται μια άλλη λέξη. Για παράδειγμα, όταν κάποιος πραγματοποιεί αναζήτηση για “κοτόσουπα”, συμπεραίνεται ότι σημαίνει “συνταγή κοτόσουπας”.
Στη συνέχεια, οι ερευνητές δηλώνουν ότι η βαθιά μάθηση έχει τις δικές της αποσκευές με τη μορφή της πολυπλοκότητας της ανάπτυξής τους και της απρόβλεπτης συμπεριφοράς όταν συναντούν νέους τομείς για τους οποίους δεν ήταν προεκπαιδευμένοι.
TW-BERT Bridges Two Approaches
Η λύση που προτείνεται είναι σαν μια υβριδική προσέγγιση.
Ο αλγόριθμος TW-BERT εκχωρεί βάρη σε ερωτήματα για να παρέχει μια πιο ακριβή βαθμολογία συνάφειας με την οποία μπορεί στη συνέχεια να εργαστεί η υπόλοιπη διαδικασία κατάταξης.
Το TW-BERT είναι εύκολο στην ανάπτυξη
Ένα από τα πλεονεκτήματα του TW-BERT είναι ότι μπορεί να εισαχθεί κατευθείαν στην τρέχουσα διαδικασία κατάταξης ανάκτησης πληροφοριών, σαν ένα στοιχείο drop-in.
Αυτό διαφέρει από τις προηγούμενες μεθόδους στάθμισης που πρέπει να ρυθμίσουν περαιτέρω τις παραμέτρους ενός retriever για να επιτύχουν τη βέλτιστη απόδοση ανάκτησης, καθώς βελτιστοποιούν τα βάρη όρων που λαμβάνονται από ευρετικά αντί να βελτιστοποιούν από άκρο σε άκρο.
Αυτό που είναι σημαντικό για αυτήν την ευκολία ανάπτυξης είναι ότι δεν απαιτεί εξειδικευμένο λογισμικό ή ενημερώσεις στο υλικό για την προσθήκη του TW-BERT σε μια διαδικασία αλγορίθμου κατάταξης.
Χρησιμοποιεί η Google TW-BERT τον αλγόριθμο κατάταξης;
Όπως αναφέρθηκε προηγουμένως, η ανάπτυξη του TW-BERT είναι σχετικά εύκολη. Κατά τη γνώμη μου, είναι λογικό να υποθέσουμε ότι η ευκολία ανάπτυξης αυξάνει τις πιθανότητες να προστεθεί αυτό το πλαίσιο στον αλγόριθμο της Google. Αυτό σημαίνει ότι η Google θα μπορούσε να προσθέσει το TW-BERT στο τμήμα κατάταξης του αλγορίθμου χωρίς να χρειάζεται να κάνει μια πλήρη ενημέρωση βασικού αλγορίθμου. Εκτός από την ευκολία ανάπτυξης, μια άλλη ποιότητα που πρέπει να αναζητήσετε για να μαντέψετε εάν ένας αλγόριθμος θα μπορούσε να χρησιμοποιηθεί είναι το πόσο επιτυχημένος είναι ο αλγόριθμος στη βελτίωση της τρέχουσας κατάστασης της τέχνης.
Υπάρχουν πολλές ερευνητικές εργασίες που έχουν περιορισμένη επιτυχία ή καμία βελτίωση. Αυτοί οι αλγόριθμοι είναι ενδιαφέροντες, αλλά είναι λογικό να υποθέσουμε ότι δεν θα μπουν στον αλγόριθμο της Google. Αυτά που παρουσιάζουν ενδιαφέρον είναι αυτά που είναι πολύ επιτυχημένα και αυτό συμβαίνει με το TW-BERT.
Το TW-BERT είναι πολύ επιτυχημένο. Είπαν ότι είναι εύκολο να το βάλουμε σε έναν υπάρχοντα αλγόριθμο κατάταξης και ότι αποδίδει εξίσου καλά με τους «πυκνούς νευρωνικούς ταξινομητές»
Επομένως, αυτοί είναι δύο καλοί λόγοι για τους οποίους το TW-BERT μπορεί ήδη να αποτελεί μέρος του αλγόριθμου κατάταξης της Google.
Είναι μια γενική βελτίωση στα τρέχοντα πλαίσια κατάταξης
Εάν η Google έχει αναπτύξει το TW-BERT, τότε αυτό μπορεί να εξηγήσει τις διακυμάνσεις κατάταξης που ανέφεραν τα εργαλεία παρακολούθησης SEO και τα μέλη της κοινότητας μάρκετινγκ αναζήτησης τον περασμένο μήνα. Σε γενικές γραμμές, η Google ανακοινώνει μόνο ορισμένες αλλαγές κατάταξης, ιδιαίτερα όταν προκαλούν ένα αξιοσημείωτο αποτέλεσμα, όπως όταν η Google ανακοίνωσε τον αλγόριθμο BERT.
Ελλείψει επίσημης επιβεβαίωσης, μπορούμε μόνο να κάνουμε εικασίες σχετικά με την πιθανότητα ότι το TW-BERT είναι μέρος του αλγόριθμου κατάταξης αναζήτησης της Google.
Ωστόσο, το TW-BERT είναι ένα αξιοσημείωτο πλαίσιο που φαίνεται να βελτιώνει την ακρίβεια των συστημάτων ανάκτησης πληροφοριών και θα μπορούσε να χρησιμοποιείται από την Google.