Deep learning : Google simplifie l'utilisation de TensorFlow

Afin de simplifier la mise en place de projets de deep learning avec son outil open source TensorFlow, Google vient de lancer une librairie de workflow baptisée Tensor2Tensor (T2T). Elle apporte un certain nombre d’éléments prédéfinis comme les modèles d’apprentissage et les jeux de données tout en simplifiant leur gestion.

La libraire Tensor2Tensor de TensorFlow permet de simplifier la gestion de plusieurs éléments des projets de deep Learning, notamment les modèles d’apprentissage et les jeux de données utilisés. (crédit : D.R.)

Au fil des années, Google TensorFlow s’est assumée comme une suite d’outils open source efficaces pour le deep learning. Mais mettre en place des projet d’apprentissage avec cette solution peut encore s’avérer long et fastidieux, surtout quand il est nécessaire de récupérer des jeux de données déjà utilisées par quelqu’un d’autre et que tous le processus  d’apprentissage doit être redéfini. Le nombre de variables nécessaires à la mise en place d’un modèle de deep learning a de quoi rebuter jusqu’aux meilleurs experts en la matière.

Cette semaine, le projet de Google a fait un pas vers la simplification de cette démarche grâce au lancement de Tensor2Tensor, ou T2T pour les intimes. Cette librairie de workflow basée sur le langage Python apporte aux développeurs un certain nombre d’éléments prédéfinis (modèles, jeux de données, paramètres) pour la mise en place de leur modèle d’apprentissage et simplifie la gestion de ces derniers grâce à plusieurs fonctionnalités. 

T2T s’articule ainsi autour de cinq outils principaux. Le premier, Dataset, permet l’ajout des jeux de données, soit à un workflow dédié, soit directement à l’ensemble des processus d’apprentissage gérés par TensorFlow. Problems and Modabilities sert pour sa part à définir les objectifs du projet et ses applications, comme la reconnaissance vocale ou de photo. Il permet en outre de définir les types de résultats attendus, par exemple, si suite à une reconnaissance d’image, le processus doit donner un résultat sous forme de texte ou sous la forme d’une autre image.

T2T limité au contexte de TensorFlow

L’outil Models regroupe ensuite la plupart des processus déjà utilisés au sein de T2T et permet de les réutiliser tel quel, ou de les modifier pour les adapter à votre projet. Il est également possible d’en ajouter d’autres. Afin de gérer les différents paramètres et de contrôler la phase d’apprentissage, les utilisateurs pourront s’appuyer sur Hyperparameters. Et enfin, Trainers permet de réinjecter les paramètres précédemment spécifiés dans d’autres projets T2T.

Dès sa première utilisation, T2T est ainsi paramétré par défaut et peut donc être rapidement opérationnel. Un grand nombre de jeu de données et de modèles sont déjà embarqués par la librairie et peuvent être réutilisés ou modifier pour s’adapter à votre projet. Toutefois, la solution a aussi des limites. Elle ne permet pas, par exemple d’élargir le contexte de travail au-delà de l’univers TensorFlow. Elle ne fait que simplifier l’utilisation de ce dernier.

 

Logiciel

UBS développe un outil IA pour la recherche d'investissements

Le plus grand groupe bancaire mondial, UBS, a développé des agents virtuels capables d’effectuer des recherches d’investissements, presque aussi bien qu’un analyste.

Annika Schroeder, directrice de l’IA au sein de l’UBS Group Innovation à l’occasion de son intervention en 2016 sur la conférence Swiss Digital Finance. (crédit : D.R.)

Lors de l’événement TechXLR8 qui s’est tenu du 13 au 15 juin au centre ExCel de Londres, Annika Schroeder, directrice de l’IA au sein de l’UBS Group Innovation, a déclaré que la banque « essayait de créer des agents virtuels ayant les mêmes compétences qu’un analyste en investissements ». Des agents capables de « passer au crible les données du marché, les documents de la SEC, d’évaluer une entreprise à partir des mêmes sources que celles…

 

Logiciel

CheerpJ, surprenant compilateur Java pour applications web

Parce qu’il fusionne Java et le développement web, CheerpJ est de plus en plus utilisé comme technologie de compilation : l’outil prend le bytecode Java et le transforme en JavaScript exécutable par les navigateurs. Les applications et les bibliothèques Java sont converties en applications Web sans passer par des plug-ins ou des installations Java.

La version bêta de CheerpJ est prévue pour juillet. (crédit : D.R.)

Basé sur la plate-forme de compilateur LLVM/Clang et sur le compilateur Cheerp C++-to-JavaScript de Learning Technologies, CheerpJ prend le bytecode Java et le transforme en JavaScript sans avoir besoin de la source Java. Dans CheerpJ, les applications et les bibliothèques Java sont converties en applications Web, sans avoir besoin de plug-ins ou d’installations Java. Les composants Java côté serveur sont transformés en bibliothèques basées sur le navigateur côté client tandis que le code Java natif sert de composants indépendants pour la plate-forme Java Node.js côté serveur. CheerpJ dispose d’un compilateur hors ligne qui transforme le bytecode Java en JavaScript et en environnement d’exécution Java basé sur JavaScript. Par ailleurs, une partie de la plate-forme sert de compilateur à la volée pour l’implémentation de classe dynamique en Java pour un déploiement avec l’application.

L’interopérabilité bidirectionnelle entre Java et JavaScript permet d’appeler n’importe quelle bibliothèque JavaScript ou n’importe quelle API de navigateur à partir de Java. De plus, n’importe quelle méthode Java supporte la transformation en JavaScript. CheerpJ peut intervenir aussi bien sur les fichiers d’archive Java (.jar) que sur les fichiers .class. Les applications converties peuvent être déployées sur un serveur Web via des fichiers JavaScript jar.js et des fichiers .jar.

WebAssembly en ligne de mire

Selon Learning Technologies, les processus de CheerpJ sont différents de ceux utilisés par d’autres technologies comme GWT (Google Web Toolkit), pour intégrer du Java dans les navigateurs, car celles-ci n’offrent pas de support complet pour les constructions Java et ne peuvent implémenter que partiellement la bibliothèque d’exécution Java. Du fait de ces limitations, ces autres technologies sont plus adaptées aux nouvelles applications plutôt qu’à la conversion des applications existantes. D’autres technologies comme Scala.js, le langage Kotlin, et TypeScript de Microsoft sont également capables de compiler JavaScript dans d’autres langages. Une version publique restreinte de CheerpJ est programmée pour juillet, la disponibilité générale, dont une version commerciale, étant prévue pour l’automne.

CheepJ pourrait s’attaquer prochainement à WebAssembly, un code binaire de plus en plus populaire qui pourrait améliorer les performances du Web et permettre à d’autres langages d’être exécutés dans les navigateurs. Également attendue en version release, l’extension CheerpL pour Chrome, actuellement en version bêta, laquelle active les applets Java sans nécessiter d’installation Java ou de plug-in. Les applets sont activés grâce au système de compilation à la volée de CheerpJ.js.

 

Logiciel

IBM muscle ses outils de gouvernance GDPR au machine learning

Pour aider les entreprises à appliquer les dispositions du GDPR sur la protection des données personnelles, IBM intègre du machine learning à ses outils de gouvernance. Il complète aussi StoredIQ pour la découverte des données non structurées des SI. Big blue fait aussi des annonces autour de Db2.

Rob Thomas, general manager IBM Analytics, a ouvert la conférence « Fast track your data » organisée le 22 juin à Munich par le fournisseur. (crédit : D.R.)

Le 25 mai 2018 se rapproche et l’ombre du Règlement général de protection des données (RGPD ou GDPR) plane sur les entreprises. Il leur reste moins d’un an désormais pour se mettre en conformité au niveau européen. Avec Watson, IBM a mis depuis longtemps les technologies cognitives au cœur de son offre avec des API largement accessibles sur son cloud Bluemix. Cette semaine, il organise à Munich la conférence « Fast track your data » consacrée à  la gestion des données où il expose les bénéfices combinés du machine learning et de la data science et aborde le sujet crucial de la préparation au GDPR, le Règlement général de protection des données qui s’applique donc dans 11 mois. Dans cette perspective, IBM a fait évoluer son offre de gouvernance de données en faisant appel à l’apprentissage machine. L’objectif est de permettre aux développeurs et data scientists de mieux comprendre et contrôler les données sur lesquels ils travaillent pour faciliter la mise en application des nouvelles règles de protection.

La plateforme Unified Governance Software comporte ainsi des fonctions de collecte « cognitive » des métadonnées et de data lineage – pour retrouver l’origine de ces données – s’ajoutant aux services d’intégration et de reporting par catégories d’utilisateurs. Un nouvel outil, Information Governance Catalog Download & Go, pourra être téléchargé sur site par les clients pour installer les fonctions de gouvernance sur site. Il complète la version cloud de l’offre. Enfin, IBM a également fait évoluer StoredIQ, son logiciel de découverte de données servant à identifier les données non structurées stockées au sein des entreprises. Celui-ci comporte de nouveaux modules d’analyse qui peuvent être téléchargés sans coût supplémentaire pour commencer à rechercher dans les SI les informations sensibles et les données personnelles, explique IBM. L’objectif est de permettre aux entreprises d’être dans les temps pour se conformer aux obligations du GDPR. StoreIQ est disponible en 11 langues dans 15 pays de l’Union européenne, dont la France.

Db2 Developer Community pour prototyper des apps

A Munich, IBM fait par ailleurs différentes annonces autour de sa base de données historique Db2 dont il propose une version cloud entièrement managée. Il est maintenant possible d’intervenir sur la puissance des ressources de traitement (processeurs, mémoire vive associée) et l’augmentation des capacités de stockage de façon quasi instantanée sur un déplacement de souris. La console d’administration a également été revue pour une prise en main plus rapide. L’offre Db2 on Cloud figure au catalogue d’IBM aux côté de Db2 Hosted, une version de la base de données hébergée sur le cloud d’IBM pour les clients souhaitant un contrôle renforcé de la plateforme, rappelle le fournisseur. Db2 supporte maintenant le format de fichier JSON qui permet de transmettre des données dans un format lisible. Les développeurs peuvent utiliser leurs compétences SQL pour gérer les données JSON depuis Db2 en bénéficiant de requêtes optimisées.

Par ailleurs, IBM propose aux développeurs de télécharger gratuitement Db2 Developer Community Edition conçu pour le prototypage rapide d’applications. Cette offre dispose de toutes les capacités de l’édition Enterprise. Après l’avoir installée, on peut commercer à charger et gérer des données au bout d’un quart d’heure, assure le fournisseur. Principal intervenant sur la conférence de Munich, Rob Thomas, general manager de l’activité IBM Analytics, constate que les développeurs cherchent de plus en plus des solutions leur permettant de créer rapidement des applications.

 

Logiciel

Power BI de Microsoft au service du datajournalisme

Enlighten Designs a lancé avec The Associated Press (AP) un programme test d’analyse de données qui doit permettre à l’agence de presse internationale d’exploiter les technologies Microsoft Power BI pour améliorer la rédaction de ses sujets, et notamment d’adapter ses articles pour des médias locaux et régionaux.

The Associated Press a publié les résultats des primaires 2017 en Nouvelle-Zélande en se servant Microsoft Power BI. (crédit : D.R.)

Désireuse de transformer ses flux de données brutes – mis à disposition de ses membres diffuseurs et de ses clients – en informations facilement assimilables pour cibler plus facilement des publics locaux et régionaux, The Associated Press s’est rapproché d’Enlighten Designs. Le développeur de logiciels néo-zélandais basé à Hamilton a ainsi mis au point un programme destiné à apprendre aux journalistes comment utiliser les outils d’analyse et de visualisation via Power BI de Microsoft. « Enlighten veut aider la presse à dépasser l’étape de l’exploration des données », a déclaré Damon Kelly, CEO d’Enlighten Designs. « Cela permettra aux journalistes, aux blogueurs, aux radiodiffuseurs et aux analystes de consacrer plus de temps à rédiger leurs articles et moins de temps à essayer d’organiser et de comprendre de grands ensembles de données souvent difficiles à lire, dont l’analyse demande généralement beaucoup de temps ».

Le CEO d’Enlighten Designs a déclaré que le projet pilote permettra à Associated Press d’utiliser Power BI pour élargir ses modalités de partage des données avec ses membres et ses clients, et d’utiliser dans ce processus les compétences et les capacités technologiques d’Enlighten. Notamment, la solution d’Enlighten permettra de créer des « graphiques interactifs simples » afin de proposer une vue plus « directe » des données. Selon Damon Kelly, grâce aux visualisations interactives, les membres diffuseurs et les clients de l’AP trouveront plus facilement des articles d’intérêt local, mais ils pourront aussi créer et réaliser en quelques clics avec Power BI des visualisations de données interactives localisées pour illustrer ces articles.

Voir plus rapidement les informations plus intéressantes

Selon le CEO d’Enlighten Designs, cette nouvelle forme de collaboration va permettre aux médias locaux et régionaux de trouver et de diffuser plus facilement des articles d’intérêt local écrits à partir des informations les plus pertinentes pour le public ciblé. « Le travail de visualisation des données que nous réalisons permet aux journalistes de voir rapidement et facilement les informations les plus intéressantes pour leur région. Cette manière de traiter les données peut s’avérer très utile dans un grand nombre de circonstances, par exemple l’analyse des résultats des élections, ou la comparaison du prix des maisons dans différentes banlieues », a encore expliqué Damon Kelly. « Nous sommes très enthousiastes de travailler avec l’une des agences de presse les plus importantes et les plus fiables du monde et de promouvoir une analyse pertinente des données pour le traitement de l’information ».

Principal développeur de logiciels du pays, Enlighten est également spécialisé dans l’intégration de systèmes et dans la conception de sites Web. L’entreprise a été l’un des finalistes du Microsoft Partner Awards 2017 de Nouvelle-Zélande dans les catégories Plateforme de données, Analytique, Secteur Public et Éducation. Basé à Hamilton, le fournisseur est répertorié dans le Portail de services Web du gouvernement néo-zélandais et compte parmi ses clients la Waikato University, Mercury et Livestock Improvement Corporation, pour ne citer que les plus importants. « Enlighten est un formidable innovateur. Il cherche constamment à proposer de nouvelles manières d’utiliser les données », a déclaré Myles Matheson, responsable Data and Analytics de Microsoft. « C’est donc gratifiant de voir qu’une entreprise néo-zélandaise comme Enlighten utilise Power BI pour tirer un meilleur parti des données. Toutes les entreprises collectent des montagnes de données dans leurs activités. Mais l’usage de ces données – pouvoir les clarifier, les traduire en une forme compréhensible, les organiser en vues dynamiques – apporte un avantage concurrentiel évident. Et comme le montre cet exemple exceptionnel de l’Associated Press, Power BI permet aux journalistes d’exploiter pleinement le potentiel de ces données ». Pour conclure, Myles Matheson a précisé que les médias néo-zélandais abonnés à l’agence de presse AP pourront utiliser les visualisations AP dès leur diffusion.

 

Logiciel