Στόχος της εταιρείας είναι να δώσει στους υπολογιστές τη δυνατότητα να αναγνωρίζουν τις φωνές κάθε χρήστη ξεχωριστά με τη βοήθεια ενός μοντέλου deep learning που τις απομονώνει μέσα από ένα σύνολο εξωτερικών ήχων ή θορύβου. Το μοντέλο της Google μπορεί να οδηγήσει στην παραγωγή video όπου η ομιλία συγκεκριμένων ανθρώπων θα ακούγεται σημαντικά πιο δυνατά σε σύγκριση με άλλους θορύβους που επίσης καταγράφονται, χωρίς να υπάρχει πολυκάναλη εγγραφή του ήχου. Ο χρήστης απλά θα επιλέγει το πρόσωπο που θέλει να ακούσει μέσα στο video.
Οι πιθανές εφαρμογές αυτής της τεχνολογίας είναι αρκετές (π.χ. ειδικά βοηθήματα για ανθρώπους με προβλήματα ακοής), διότι έχει τη μοναδική ιδιότητα να συνδυάζει οπτικά και ακουστικά σήματα σε ένα video, και ταυτόχρονα να διαχωρίζει την ομιλία. Ουσιαστικά, ανιχνεύει τις κινήσεις του στόματος και τις συνδυάζει με τους ήχους που έχει καταγράψει για να ανιστοιχήσει την ομιλία που πηγάζει από αυτόν τον άνθρωπο. Επιπλέον, είναι εφικτή η εξαγωγή ξεχωριστών καναλιών ήχου από το video.
Δείτε ένα παράδειγμα στο video που ακολουθεί:
Πηγή: techgear.gr