Image may be NSFW.
Clik here to view.
Ce week-end, à Bruxelles, se déroulera le FOSDEM (Free and Open Source Software Developers’ European Meeting). Cette conférence adresse les technologies Open Source dans leur ensemble avec des tracks diversifiées traitant de Linux, BSD, des systèmes embarqués, Mono (.Net), Java, ou encore de l’analyse de données (Data Analytics).
Pour ma part j’y présenterai une session sur le sujet émergeant que sont les moteurs de recherche temps réel. En effet depuis que Lucene s’est doté d’une capacité de recherche Near Real-Time, il y a un peu plus d’un an, il est maintenant possible d’effectuer des recherches sur du contenu au fur et à mesure de son apparition, là où auparavant un délai était nécessaire en raison d’une indexation en batch. Cette nouvelle capacité offre de nouveaux défis, puisque les différents traitements doivent également être assurés en temps réel. Pour répondre à cette problématique, je montrerai comment S4, le récent framework distribué de traitement de flux de Yahoo! peut rendre possible les analyses les plus audacieuses sur un flux de documents d’une taille quelconque.
L’abstract de cette présentation est le suivant :
Search engines have been around for a while, but only recently focus has been made on allowing search on real-time content. To enable such a thing, the whole indexing pipeline has to be made real-time : that is the data processing, and the insertion in the index itself. Lucene has been extended to allow the latter, but the former still has to be handled.
S4 is an emerging technology from Yahoo that simplifies real-time distributed data processing. The goal of this presentation is to show how S4 can be used to enable some expensive pre-processing on a stream of incoming data, right before its indexing, thus bringing a powerful real-time search capability.
Pour rappel, FOSDEM est une conférence gratuite et ouverte à tous, alors si Bruxelles vous est accessible, n’hésitez pas à vous y rendre !