Second Atelier Qualité des Données et des Connaissances English Version

Associé à ECG 2006

17 Janvier 2006, ENIC, Villeneuve d'Ascq, France

 

Motivation

 

Après le succès du premier atelier Qualité des Données et des Connaissances -  DKQ 2005 (Data and Knowledge Quality) – organisé à Paris l’année dernière en conjonction avec EGC'2005, la seconde édition de l’atelier est organisée à Villeneuve d'Ascq cette année. Cet atelier se concentre sur les méthodes, les techniques d’analyse et de nettoyage des données, les méthodologies, les approches algorithmiques et les métriques permettant de mesurer la qualité des données et la qualité des connaissances dans le processus de fouille de données et d’extraction de connaissances.

 

Les problèmes de qualité des données stockées dans les bases, les entrepôts ou puits de données s’étendent à tous les domaines d’application qu’elles soient gouvernementales, commerciales, industrielles ou scientifiques. La découverte de connaissances et la prise de décision à partir de données de qualité médiocre (c’est-à-dire contenant des erreurs, des doublons, des incohérences, des valeurs manquantes, etc.) ont des conséquences directes et significatives pour les entreprises et pour tous leurs utilisateurs. Le thème de la qualité des données et des connaissances est pour cela devenu, depuis ces dernières années, un des sujets d’intérêt émergeant à la fois dans le domaine de la recherche et critique dans les entreprises.

 

Toutes les applications dédiées à l’analyse des données (telles que la fouille de données textuelles par exemple) requièrent différentes formes de préparation des données  avec de nombreuses  techniques de traitement, afin que les données passées en entrée aux algorithmes de fouille  se conforment à des distributions relativement « sympathiques », ne contenant pas d’incohérences, de doublons, de valeurs manquantes ou incorrectes. Seulement, entre la réalité des données disponibles et  toute la machinerie permettant leur analyse, un assez vaste fossé demeure.

 

In fine, l'évaluation des résultats issus du processus de traitement des données, est généralement effectuée par un spécialiste (expert, analyste,...).  Cette tâche est souvent très lourde, et un moyen de la faciliter consiste à aider le spécialiste en lui fournissant des critères de décision sous la forme de mesures de qualité ou d'intérêt des résultats. Ces mesures de qualité des connaissances doivent être conçues afin de combiner deux dimensions : une dimension objective liées à la qualité des données, et une dimension subjective liées aux intérêts du spécialiste.

 

Nous encourageons  la soumission d’articles de recherche et  d’études de cas industriels liés à tous les aspects de la qualité des données et des connaissances au sens large, de la préparation des données, de leur nettoyage à leur analyse et à l’évaluation des résultats.

La durée de l’atelier est de un jour dédié à des présentations d’articles dans les thèmes d’intérêt listés ci-après.

 

Programme de l’atelier Qualité des Données et des Connaissances - 17 janvier 2006

 

 

 

9h-9h30 : Accueil et ouverture par Laure Berti-Équille et Fabrice Guillet

 

9h30-10h45: Conférence invitée

                        Object Identification and Data Integration: Data Quality Issues in Database Research, Monica Scannapieco (Univ. Roma La Sapienza, Italy)

 

10h45-11h: Pause

 

11h - 12h: Session 1 - Qualité des données : Théorie et Pratiques Opérationnelles

 

-                Data Profiling versus Data Quality Problems, Paulo Oliveira, Fátima Rodrigues (Polytechnic of Porto, Portugal), Pedro Henriques (University of Minho, Portugal)

 

12h30-14h: Pause déjeuner

 

14h-15h: Conférence invitee –
                Discovering Interesting Exception Rules with Rule Pair, Einoshin Suzuki (Yokohama National University, Japan) 

 

 

15h- 16h: Session 2 - Qualité et interprétation des règles d’association

-          Delphine Clément (Hewlett-Packard), Brigitte Laboisse (AID), Audit des données du ‘Référentiel Client’ Hewlett Packard

-         Aide à l’interprétation des règles d'association composées, Martine Cadot UHP/LORIA, Pascal Cuxac et Claire François (INIST-CNRS)

 

16h-16h30: Pause

 

16h30-17h30 : Session 3 – Mesures d’intérêt des règles d’association

-                Agrégation de mesures d’intérêt de règles d’association, Jean-Pierre Barthélemy, Angélique Legrain, Philippe Lenca (TAMCIC, ENST Bretagne), Benoît Vaillant (IUT de Vannes)

-                Extraction de mesures d’intérêt représentatives pour le post-traitement des règles d’association, Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand, LINA, Ecole polytechnique, Univ. de Nantes)

 

 

Venir à DKQ 2006

Le lieu de l’atelier est :

Enic-TELECOM LILLE 1
Cité scientifique - Rue Guglielmo Marconi
59658 Villeneuve d'Ascq Cedex
Tél. standard : 03 20 33 55 77
 
Le site de la conférence EGC est dans le bâtiment ENIC,  à 50 mètres du bâtiment M3 du LIFL.

La salle de l’atelier sera indiquée prochainement.

Vous trouverez ici des informations pour se rendre à l’ENIC.

Accès :

 

Thèmes

 

La liste des thèmes particulièrement intéressants pour l’atelier (sans être limitative) est la suivante :

 

Pour tout type de données : XML, données transactionnelles, numériques, catégorielles, multimédia et dans différents contextes d’application : Bioinformatique, Marketing, e-Commerce, etc.

 

Public

Les participants attendus à cet atelier sont des chercheurs, des étudiants, des professionnels dans les domaines des bases de données, de la découverte de connaissances à partir des données, de la fouille et de l’analyse des données, qui ont un intérêt particulier pour la qualité des données dans les bases et les entrepôts, la préparation des données, la découverte d’incohérences, de contradictions, etc., les techniques de nettoyage des données et les systèmes ETL.

Bien entendu, est ciblé l’ensemble des personnes confrontées aux problèmes de qualité des données sans être limité aux auteurs soumettant un article.

La raison d’être de l’atelier est, avant tout, de favoriser les échanges et de réunir les personnes qui mènent des travaux de recherche ou conçoivent des applications dans les domaines de la fouille et de l’analyse des données (commerciales, relationnelles, textuelles, etc.) et les personnes du domaine des bases de données spécialisées dans les techniques de nettoyage des données avec, comme objectif commun, de contrôler et d’améliorer la qualité des données et la qualité des connaissances extraites à partir des données.

 

Organisation de l’atelier

 

 

Laure Berti-Équille, IRISA-CNRS Rennes, France

 

Fabrice Guillet, IRIN, Université de Nantes, France

 

Comité de Programme

 

Salleb Ansaf, IRISA-CNRS Rennes, France

Henri Briand, IRIN, Université de Nantes, France

Béatrice Duval, Université d’Angers, France

Régis Gras, IRIN, Université de Nantes, France

Pascale Kuntz, IRIN, Université de Nantes, France

Stéphane Lallich,  ERIC, Université de Lyon 2, France

Philippe Lenca,  ENSTbr, Brest, France

Amedeo Napoli, LORIA, Nancy, France

Gilbert Ritschard, Université de Genève, Switzerland

 

 

Dates Importantes

Date limite de soumission :

1er Décembre 2005

Extension date limite de soumission

12 Décembre 2005

Notification :

20 Décembre 2005

Réception des textes définitifs :

2 Janvier 2006

Date de l’atelier :

17 Janvier 2006