Structuration et analyse de données massives

Structuration et analyse de données massives (big data) en plant de pomme de terre

Objectifs

Une quantité et une diversité croissantes de données sont générées par les activités de recherche et d’expérimentation en plants de pomme de terre ainsi que par le suivi de parcelles agricoles et les données agro-météorologiques qui y sont associées.

Toutefois, ces sources de données massives sont hétérogènes en termes de contenu et d’échelle spatio-temporelle et peuvent difficilement être mises en relation. La synthèse et l’analyse de telles sources de données hétérogènes et massives représentent un défi important pour l’acquisition de nouvelles connaissances et pour évaluer ou simuler les performances de pratiques culturales ou itinéraires techniques.

 Il est donc nécessaire de :

  • travailler à la structuration de ces données au sein de larges bases de données
  • rechercher de nouvelles méthodes pour exploiter ces gisements de données

Travaux envisagés

Cette action du  programme InnoPlant² est envisagée en plusieurs étapes :                        

  • inventaire des données et cahier des charges pour la structuration d’une base de données : recensement des données disponibles dans le domaine des plants de pomme de terre, en interne (notations en parcelles, enquêtes en production, notations d’essais, analyses, travaux de recherche..) et en externe (données météorologiques, de sol et d’environnement, notamment via des plateformes comme API-AGRO) puis étude de la possibilité de structuration des informations dans une base de données unique   
  • base de données massives (selon faisabilité) : selon les résultats de l’étude de faisabilité,  une base de données sera établie avec les données retenues et structurées, en vue d’exploration de ces données (data mining), dans le cadre de travaux de recherche et d’études avec ou sans a-priori
  • étude-pilote avec l’analyse d’un jeu de données visant à mettre en évidence les associations (corrélation ou enchainement de variables). L’analyse et l’exploitation statistique de cette base de données est envisagée sur un ou deux cas-modèles, par exemple pour rechercher des associations préférentielles (clustering) afin d’identifier /quantifier les facteurs associés à l’expression de certains problèmes sanitaires comme la jambe noire ou les maladies à virus ou pour analyser les données d’un réseau expérimental  et étudier la faisabilité d’un modèle de détection prédictif de la jambe noire ou des maladies à virus.
Un gisement de données multiples et hétérogènes
Un gisement de données multiples et hétérogènes © FN3PT

Partenaires

Ce travail sera conduit par la FN3PT (Service informatique et chercheurs), en partenariat avec des acteurs de la certification, de la recherche et de l’analyse de données et si possible dans le cadre d’un projet collaboratif

Date de modification : 30 janvier 2023 | Date de création : 25 septembre 2019 | Rédaction : UMT Innplant