menu
5 august 2016

Laatste ontwikkelingen op zoekgebied van SIGIR 2016

904Labs was bij SIGIR 2016 in Pisa. Om op de hoogte te blijven van de recente ontwikkelingen in zoektechnologie vinden we het leuk om naar wetenschappelijke conferenties op dit gebied te gaan. Deze keer was Manos bij SIGIR, de belangrijkste interationale conferentie voor zoektechnologie. Er kwamen veel interessante praatjes voorbij in drie dagen, waarin twee belangrijke onderwerpen waren (1) het begrijpen van natuurlijke taal en (2) de populariteit van gesproken zoekvragen. Gesproken zoekvragen (of "voice queries") zijn gemiddeld gezien langer dan geschreven zoekvragen (7 termens voor gesproken tegen 4 voor geschreven) en ze lijken veel meer op natuurlijke taal (ze bevatten relatief minder zelfstandige naamwoorden bijvoorbeeld). Een andere eigenschap van gesproken zoekvragen is dat er minder clicks op zoekresultaten zijn en dat context een grote rol speelt. Het is belangrijk voor een systeem om voorgaande zoekvragen en antwoorden te onthouden.

Google over gesproken zoekvragen

Keynotepresentaties van Google en Amazon gaven veel inzicht in de uitdagingen die grote zoek- en retailbedrijven hebben op dit moment. Google steekt veel energie in het mogelijk maken van gesproken zoekvragen, waarbij gehint werd naar een toekomstige "persoonlijke assistent". Volgens Google zal zoeken in de toekomst gebouwd worden rond drie pijlers: a) antwoorden, b) conversatie en c) voorzien. Antwoorden gaat over het teruggeven van het juiste resultaat, conversatie gaat over het bijhouden en betrekken van de context van voorgaande zoekopdrachten (bijv. "hoe oud is Michael Jackson" kan gevolgd worden door "Hoe lang is hij?"). Voorzien gaat over proactiviteit en het genereren van resultaten voor gebruikers op basis van fysieke context (tijd, seizoen, weerbericht, verkeerssituatie, ...).

Google at SIGIR 2016

Amazon over Learning to rank

Dichter bij huis gaf Amazon interessante inzichten in hoe zij omgaan met zoeken in e-commerce. Learning to rank is de kern van hun zoeksysteem, wat getraind wordt met gebruikersgedrag - dit lijkt erg veel op hoe onze zelflerende zoekmachine ook werkt. De features die hun algoritme gebruikt zijn onder andere de overeenkomst met delen van een item, maar ook gedragsfeatures en veel herformuleringen van de zoekvraag om recall te verhogen. Een interessant voorbeeld betrof de modecategorie, waar iemand zocht naar een [diamenten trouwring] en het eerste resultaat was een goedkope nepdiamanten ring. Het resultaat kwam daar doordat er geleerd was van álle bezoekers van de site. In mode is het echter niet gewenst dat een winkel zich "goedkoop" voordoet, dus Amazon hield het systeem voor de gek door de trainingsdata zo te manipuleren dat het meer ging leren van fashionista-bezoekers, bezoekers die wat meer geld besteden. Het resultaat wat dat een echte diamanten ring nu bovenaan stond en de namaakring een paar plaatsen lager. Een mooi voorbeeld van het gebruik van trainingsdata en machine learning!

Amazon at SIGIR 2016

Historische data gebruiken voor het trainen van nieuwe systemen

Het was ook goed om te zien dat grote zoekbedrijven werken aan methodes om hun (grote hoeveelheden) historische data te kunnen herbruiken om nieuwe learning to rank systemen te testen en trainen. Dit is een moeilijk probleem en daarom ook een actief onderzoeksveld. De tutorial over "Counterfactual evaluation of search engines" door Adith Swaminathan en Thorsten Joachims van Cornell University ging hierover. In deze tutorial werden de laatste en beste ideeën gepresenteerd voor het trainen van nieuwe systemen met historische data. Niet geheel toevallig gebruiken wij enkele van de algoritmes geïntroduceerd door Joachims, iets wat Manos heeft uitgelegd tijdens zijn presentatie over het gebruik van wetenschappelijke bevindingen binnen 904Labs.

904Labs at SIGIR 2016

Over het geheel was SIGIR erg leuk en interessant. Het was prachtig om er te zijn en een shot van de nieuwste trends in zoektechnologie te krijgen. Het is goed om te zien dat wij, vanuit een technologisch oogpunt, minstens op gelijke voet staan met wat de grote bedrijven gebruiken om hun zoekmachines aan te sturen. Van deep learning tot methodes voor het gebruik van historische data voor nieuwe systemen, wij zitten er bovenop!

Neem contact op als je meer wilt weten over de recente ontwikkelingen op het gebied van zoekmachines en zoektechnologie.