Sécurisation de contenus numériques adaptées au document

Sujets de thèse 2013

Intitulé de la thèse
Sécurisation de contenus numériques adaptées au document
Publication du sujet sur le site de l’ABG : OUI
Nature du financement : Financement institutionnel, Contrat Doctoral, Financement régional, Contrats université sur projets,)
Domaine de compétences principal (pour l’ABG) : Informatique, électronique
Domaine de compétences secondaire (pour l’ABG) : Sciences pour l’Ingénieur
Spécialité de doctorat : Informatique et Applications

Lieu de travail
Université de la Rochelle, laboratoire L3i
Date Limite de candidature : 30/05/2013
Laboratoire d’accueil : L3I

Présentation de l’équipe de recherche
Equipe ASPIC
Avec l’avènement des technologies numériques et la multiplicité des processus de dématérialisation de l’information, on constate un foisonnement des modes de production de contenus numériques et une croissance exponentielle de la volumétrie des données. L’usager intervient désormais, avec une dynamique nouvelle, pour dématérialiser l’information et l’organiser de telle sorte qu’elle puisse être exploitée de la manière la plus adaptée à la demande de l’utilisateur. Les processus associés au traitement des contenus numériques doivent par conséquent être complètement revisités, pour intégrer cette large diversité de contenus hétérogènes et de niveaux de structuration variable, dans un contexte interactif qui ouvre un nouveau regard sur la problématique. En effet, les «chaines de traitement» traditionnelles, classiquement constituées en phases (numérisation, indexation, exploitation) ne sont généralement plus adaptées à l’impératif d’une forte valorisation des contenus. Il convient alors de rapprocher les problématiques liées de la gestion (au sens large) des contenus de celles liées à l’interaction et de les organiser autour d’un principe de bouclage de pertinence qui va impacter sur les méthodes de dématérialisation de l’information, de son organisation, des mécanismes d’indexation et aussi de la mise en œuvre de l’interactivité générale (de la «production» à la «consommation») de l’information. L’axe ASPIC adresse un ensemble de problématiques scientifiques visant à décloisonner les travaux de communautés scientifiques issues de l’analyse de contenus d’une part et de l’interactivité d’autre part. Les thèmes majeurs abordés dans le cadre de cet axe stratégique sont les suivants:

1/ Représentation des connaissances
2/ Analyse des contenus – Indexation – Recherche d’informations
3/ Interaction – Visualisation – bouclage de pertinence – Scénarisation dynamique

Résumé de la thèse en français
Au sein des organisations économiques telles que des entreprises ou des organismes publics, nombreux sont les problèmes liés à la sensibilité des informations internes. Un exemple parmi d’autres est celui de la sécurisation des documents papiers produits dans l’organisme. Il existe à l’heure actuelle des solutions permettant de restreindre et/ou de contrôler l’accès aux locaux, aux systèmes d’information ainsi qu’aux moyens de production/reproduction de documents papiers mais aucune de ces solutions, une fois l’accès fourni à l’utilisateur, ne permet de contrôler les documents papiers circulant dans l’organisation. En effet, les documents papiers produits possèdent en général des degrés de sécurité différents qu’il serait pertinent de protéger par l’intermédiaire d’un système complet de gestion des droits d’accès, modification et reproduction relié aux utilisateurs, couplé avec un historique de ces accès au système. Ce système pourrait être construit en ajoutant une information d’authentification des documents par l’insertion de marques en son sein.
Ce travail de thèse vise la sécurisation des documents numériques, par intégration d’incides graphiques non visibles à l’œil, mais pour autant détectable et décodable par une machine. Le projet comporte deux volets: l’encodage d’informations cryptées dans le document, en appui sur des approches basées sur la construction de signatures statistiques, rendant ainsi les documents authentifiables du fait de l’intégration préalable de ces signatures graphiques. Il s’agit de lever des verrous scientifiques liés à la caractérisation des objets par des signatures pertinentes. En particulier, l’impact des déformations non visibles des formes sur les signatures géométriques, statistiques ou structurelles des objets n’a jamais été étudié sous cet angle. Le second volet concerne la problématique de décodage des informations encryptées dans le document. La majeure partie des études essayant au contraire de diluer l’impact des déformations de formes, dans une optique de reconnaissance. Dans le cadre de ce projet, la problématique est totalement différente, puisqu’il s’agira de déformer les objets (caractères, lignes, logos, …) de telle sorte que le calcul de leur signature permettra de définir la nature exacte de la marque, en termes de confidentialité du document, mais aussi en termes de règles.

Résumé de la thèse en anglais
Within the economic organisations such as firms or public agencies, there are many problems related to the sensitivity of internal information. One example is the securing of the paper produced in the organization. There are at present time solutions allowing to restrict or control access to premises, information systems as well as to the means of production/reproduction of paper but none of these solutions, once access is provided to the user, to control documents papers circulating in the organization. Indeed, documents produced papers typically have degrees of different security that it would be appropriate to protect through a complete system of management of rights of access, modification and reproduction connected users, coupled with a history of such access to the system. This system could be constructed by adding a credential of the documents by inserting marks in his breast.
This thesis work aims securing digital documents, by integration of non-visible graphical indices to the eye, but for all detected and decoded by a machine. The project has two components: the encoding of information encrypted in the document, support on approaches based on the construction of statistical signatures, thus making authenticatable documents by virtue of the prior integration of these graphical signatures. It comes to lift scientific locks associated with the characterization of objects by relevant signatures. In particular, the impact of non-visible deformations of shapes to geometric, statistical or structural objects signatures has never been studied from this perspective. The second part concerns the problem of decoding encrypted information in the document. Most of the studies instead trying to dilute the impact of the deformations of forms, with a view to recognition. Under this project, the issue is totally different, since it will be deformed objects (characters, lines, logos,…) so that the calculation of their signature will allow to define the exact nature of the brand, in terms of the confidentiality of the document, but also in terms of rules.

Description complète du sujet de thèse
Contexte de l’étude:
Le document papier reste une clé fondamentale de l’ensemble des transactions du monde moderne. Pendant des décennies, l’élaboration sophistiquée des originaux permettait de protéger relativement bien la falsification et le l’usage détourné de ces documents. L’arrivée récente de technologies permettant à chacun de produire des faux difficilement décelables, a ébranlé cette sécurité toute relative.
Une des premières solutions envisagées a été de remplacer l’usage du document papier par le document électronique. Mais les avantages en termes de sécurité apportés par celui-ci au regard du papier sont loin de compenser aujourd’hui les nouvelles menaces résultant de ce nouveau support. Si le document électronique finira par déloger le document papier, il est nécessaire de trouver une solution garantissant le bon usage du document papier à minima pour les vingt prochaines années. Il est difficile de chiffrer quelles sont les pertes générées par l’usage de faux documents ou l’usage volontairement inapproprié de documents papier car les organismes publics comme les organismes privés ne tiennent pas à divulguer les pertes générées par ces détournements de peur de faire de nouveaux émules.L’usage de fausses factures, ou l’usage multiple ou inapproprié de factures par exemple provoquent des pertes colossales aux services fiscaux des grands pays industrialisés. L’usage de copies falsifiées ou détournées de fiches de paie, de diplômes, de certificat de travail ou de tout autre document provoque régulièrement des pertes non chiffrables aux organismes sociaux ou privés ainsi qu’aux banques. Ces dernières, à la vue de fausses pièces ou de documents ayant déjà servis à solliciter d’autres organismes peuvent accorder des crédits qu’ils ont peu de chance de se voir rembourser. Il est vraisemblable que pour un pays comme la France, les pertes occasionnées au secteur public et au secteur privés par le défaut d’authentification, au sens large, des documents papiers se comptabilisent en Milliard d’euros voire en Dizaines de Milliards d’Euros.
A notre connaissance, ce projet ne connaît pas d’équivalent, ni industriel, ni scientifique, en tout cas sous l’angle sous lequel les membres de ce partenariat souhaitent l’aborder. En effet, les techniques de watermarking classiquement utilisées pour la protection des images sont inopérantes dans le cadre des documents d’entreprise, du simple fait de leurs caractéristiques intrinsèques. En effet, ces techniques de tatouage s’appuient généralement sur des enjeux de variation radiométrique, pour protéger le document, sur la base de techniques spatio-fréquentielles. Les documents d’entreprise, pour 98% d’entre eux ne possèdent pas les propriétés de variations radiométriques adéquates, pour envisager leur exploitation dans le cadre du document d’entreprise. Par ailleurs, les approches qui se consacrent à l’authentification de documents numériques sont très ciblées et plus dédiées à lire des informations au sein des documents que d’authentifier l’exactitude des documents (voir état de l’art). D’autre part, sur un plan industriel, les techniques utilisées par les constructeurs de imprimantes / photocopieurs ne permettent pas le cryptage du message embarqué dans le document. Les approches retenues, en appui sur les glyphs, sont généralement visibles et facilement décodables (voir état de l’art).

Objectifs scientifiques de la thèse
Description du sujet:
Cette sujet se divise en plusieurs parties:
• Prétraitements du document: numérisation, binarisation;
• Catégorisation des contenus pour marquage adapté;
• Production et analyse du marquage;
o Production de document sensible: analyse théorique du marquage;
o Analyse du marquage et des règles sur document numérisé;
o Encryptage des données.

1 PRETRAITEMENTS DU DOCUMENT: NUMERISATION, BINARISATION
La première étape de ce travail se focalisera sur l’étude de marquage associé uniquement à des documents de type textuel. Du fait de la nature structurelle très simple de ces documents, l’étape de numérisation/binarisation est une tâche essentielle. En effet, le niveau de sensibilité ainsi que la détection et le décodage de règles au sein du document obtenus à la fin du processus d’analyse seront fortement influencés par la qualité résultante de cette étape. La numérisation devra par conséquent se faire avec un contrôle de la résolution permettant une caractérisation précise des informations extraites sur les caractères numérisés.
De plus, le contexte de l’application que nous souhaitons développer se situe dans un milieu où l’utilisateur effectuera lui-même la phase de numérisation du document. Cette manipulation externe provoquera nécessairement des différences par rapport à une numérisation normalisée en milieu contraint. En effet, rien ne permet de garantir que le document sera numérisé correctement: verticalement pour une orientation portrait, horizontalement pour une orientation paysage. Le document numérisé pouvant très bien présenter une rotation par rapport au document original, des méthodes de détection de l’orientation du document numérisé devront donc être adoptées. Quelques pistes de méthodes à implémenter pourraient être trouvées avec les approches suivantes Trincklin 84, Baird 87, Hinds 90, Amin 00, Shivakumara 06] en gardant à l’esprit que le temps d’exécution devra rester modeste vis-à-vis du traitement global du document.
Le document numérisé, on passera ensuite à l’étape de binarisation. En effet, l’information de couleur ou de niveau de gris n’apportant pas d’information additionnelle, du fait des déformations géométriques des caractères, on se contentera d’une image binarisée du document afin de caractériser son degré de sensibilité. Cette binarisation devra être optimisée afin d’entrainer le moins de dégradations possibles sur les caractères binarisés et donc permettre une analyse pertinente de ceux-ci dans le reste du processus. Les résultats des méthodes globales [Fisher 58, Otsu 79] seront à comparer avec celles de méthodes locales [Bersen 86, Niblack 86, Sauvola 97] avec là encore, un temps d’exécution devant rester succinct face au traitement du marquage ou de son analyse qui restera l’enjeu majeur du projet.
Dans une étape ultérieure, le marquage pourrait très bien être également ajouté non plus seulement aux éléments textuels du document mais également à des éléments graphiques supplémentaires le composant.

2 CATEGORISATION DES CONTENUS POUR MARQUAGE ADAPTE
Comme dit précédemment, dans une première étape du travail, le marquage sera effectué uniquement en utilisant des déformations géométriques sur des caractères du document. Une fois cette phase accomplie, on pourra également augmenter le ratio d’informations dans les règles avec une augmentation de la complexité du document à analyser. En effet, il ne semble pas déraisonnable de penser que les documents papiers à traiter pourraient contenir d’autres éléments que des caractères. On pourrait alors imaginer ajouter des marquages supplémentaires en prenant en compte la dimension de la couleur au sein du document, ou encore l’ajout de graphiques simples comme des logos, des tableaux, des tramages de fond ou encore des diagrammes. Ces éléments graphiques supplémentaires constitueraient autant de nouveaux contenus pouvant permettre l’ajout d’information supplémentaire par l’intermédiaire de méthodes de stéganographie et devenant ainsi également contenants.
Il faudra donc bien évidemment pouvoir segmenter et catégoriser les différents contenus en fonction de leur nature, pour pouvoir produire ou analyser le marquage sur ces zones pertinentes, autrement dit les informations de formes par opposition aux informations de fond. A notre connaissance, il n’existe pas de procédé qui permettent le même niveau de sécurité. En effet, le procédé utilisé par Xerox, à savoir, les DataGlyphs permet de caractériser un document comme sensible de manière binaire mais n’ajoute pas d’information concernant cette sensibilité.

3 PRODUCTION ET ANALYSE DU MARQUAGE
Du fait que le procédé en lui-même comporte à la fois la phase de production et celle d’analyse de documents sensibles, la réalisation de ces déformations est complètement maîtrisée car elle sera effectuée de manière interne. Cependant, cette étape est déterminante dans le projet et comporte plusieurs verrous technologiques tels que le processus de production du marquage à proprement parler ainsi que son analyse théorique mais également l’analyse du document numérisé complet afin d’y détecter une information concernant son niveau de sécurité. Ces deux problématiques sont sans conteste fortement corrélées; cependant elles nécessitent chacune un traitement spécifique en vue de leur optimisation respective.

3.1 Production de document sensible: analyse théorique du marquage
Dans la première phase de développement, le marquage ainsi que les règles seront introduites au sein du document par l’intermédiaire de déformations géométriques sur certains de ses caractères, autrement dit, le marquage sera textuel. De plus, comme tout développement lié au contexte de la stéganographie, ces déformations géométriques seront effectuées de telle façon qu’elles impactent le moins négativement possible la bonne lecture du document par ces utilisateurs. Ainsi un caractère pourra être considéré comme «normal» ou comme «modifié» et dans ce cas une analyse approfondie sur sa déformation géométrique devra permettre d’obtenir des informations supplémentaires caractérisant plus en profondeur la nature de cette modification.
L’objectif de cette partie est donc de définir un protocole de déformation de caractères ainsi que les outils permettant de caractériser celle-ci. Par conséquent, lors de l’analyse d’un caractère produit avec une déformation, il faudra être à la fois en mesure de spécifier qu’une telle modification par rapport au caractère d’origine existe, mais également sa nature et son amplitude.
Pour permettre l’analyse de ces caractères «modifiés», des descripteurs de contours ainsi que de formes seront utilisés afin de calculer une signature propre à chacun des caractères. Les premiers travaux que nous suivons actuellement sont les suivants. Les caractères du document sont séparés en composantes connexes. Ensuite des vecteurs caractéristiques sont construits à partir de chaines de Freeman décrivant les contours de ces composantes connexes. Nous appliquons une transformée de Fourrier sur ces vecteurs afin de les rendre invariables à la rotation. Le but étant d’observer si les modifications géométriques apportées aux caractères modifiés sont identifiables dans l’information fréquentielle des vecteurs de contour. Nous essayons donc de comparer les vecteurs obtenus afin de vérifier s’ils pourraient être utilisés comme signature. Un problème se pose sur la comparaison de ces différents vecteurs car ils ne possèdent pas les mêmes dimensions. Pour l’instant, une solution que nous utilisons consiste à utiliser une méthode d’appariement globale (DTW pour Dynamic Time Wraping [Jayadevan 09]) pour comparer des vecteurs deux à deux. Ainsi une mesure de similarité peut être obtenue et la comparaison entre deux caractères en version «classique» et «marqué» réalisée. Les premiers résultats montrent que les déformations géométriques n’apparaissent pas de manière franche sur le spectre global de ces vecteurs. Des zones plus restreintes de spectre vont alors être observées. Ce premier schéma montre la recherche de caractéristiques permettant d’identifier les modifications géométriques appliquées sur les caractères marqués par rapport à leurs homologues non modifiés. D’autres approches nous paraissent importantes à explorer comme des descripteurs de formes obtenus par exemple par calcul des moments de Zernike [Amayeh 05] ou encore le calcul de la Transformée de Fourier-Mellin [Adam 01]. Nous n’excluons cependant pas d’utiliser des approches conjointes et également d’autres adaptées à la nature a priori connue des déformations. Il faudra alors étudier l’impact des déformations appliquées aux caractères sur les descripteurs utilisés afin d’améliorer les résultats de reconnaissance.
Une fois le marquage maîtrisé sur la partie textuelle, nous envisagerons donc d’insérer des informations de marquage complémentaires sur du contenu différent. En effet, pourquoi ne pas utiliser l’information couleur si elle existe pour augmenter le ratio d’informations contenues au niveau du marquage. Nous pourrions également définir des stratégies propres à l’utilisation d’éléments graphiques comme des tableaux, des logos, des éléments de tramage de fond, …
Pour cela, il faudra adapter ce qui ce fait dans la littérature en terme de techniques de tatouage d’image à la nature plus simple des diagrammes, tableaux, schémas. Il faudra cependant garder à l’esprit que les méthodes que nous utiliserons devront être robustes au procédé d’impression/numérisation caractéristique de l’utilisation qui sera effectuée sur les documents à analyser.
3.2 Analyse du marquage et des règles sur document numérisé.
Pour rappel, à l’issue de la numérisation, nous disposons d’un document sous forme d’image que nous devons analyser pour spécifier son niveau de sécurité. Nous avons également vu que la première étape consistera à limiter l’étude du marquage au niveau textuel. Attention cependant car ce niveau ne se limite pas aux polices occidentales mais l’objectif est de pouvoir également implémenter nos résultats sur des polices différentes et notamment asiatiques comme les polices japonaises par exemple.
Comme l’étude de la production du marquage de la partie précédente nous permettra de caractériser la différence entre un caractère normal et son pendant marqué, un système de reconnaissance de caractère (OCR) sera tout d’abord utilisé sur le document afin de déterminer chacun des caractères du document à analyser. Il est à remarquer qu’il sera alors peut-être nécessaire de reboucler sur le processus de production des déformations de caractères dans le but que l’OCR utilisé fournisse, pour un caractère marqué, son équivalent non marqué. L’objectif étant, connaissant a priori le caractère (résultat fournit par l’OCR), de définir si celui-ci est marqué et ce uniquement par les moyens spécifiques que nous aurons développés. C’est pourquoi il faudra chercher un compromis sur l’amplitude des déformations géométriques. Une amplitude faible permet une meilleure intégration pour la lecture du document par l’utilisateur et la reconnaissance des caractères par l’OCR alors qu’une amplitude forte permet un plus grand ratio d’information encodée par déformation. Les outils d’analyse des déformations sur les caractères marqués développés dans un contexte théorique devront être adaptés au contexte différent de leur utilisation dans le contexte du document numérisé. Une étude sur l’influence du bruit provoqué sur les caractères sera nécessaire car ils seront à coup sûr perturbés par les différentes étapes d’impression et de numérisation successives du document papier.
La présence de certains caractères modifiés entrainera la caractérisation du document analysé comme sensible. Il restera ensuite à décoder l’ensemble des règles contenues dans celui-ci pour obtenir toutes les informations relatives à sa sécurité.
Dans la seconde partie du projet, l’information de sécurité du document ne se trouvant plus uniquement dans la partie textuelle de celui-ci, l’étape de segmentation/catégorisation du contenu sera essentielle à l’analyse du niveau de sensibilité du document dans le sens qu’elle sera un préalable à l’analyse en elle-même du document. En effet, une analyse devra être effectuée sur le contenu textuel mais il faudra également analyser chacune des composantes graphiques en fonction de leur nature. On étudiera également dans cette partie l’influence du bruit induit par les étapes d’impression/numérisation sur le marquage dans les parties graphiques. L’analyse du marquage sur la partie textuelle est faite en possédant des informations à priori. En effet, nous connaitrons les différents caractères constituant le ou les alphabets utilisés. Par opposition, l’ajout de partie graphique se fera par des éléments totalement inconnus, il faudra donc utiliser des méthodes de tatouage robuste au bruit nécessairement plus sensible sur ce type de contenu.
3.3 Encryptage des données.
Le procédé de déformation géométrique des caractères définit, l’amplitude de cette déformation, observée sur un caractère marqué, permettra de donner un premier niveau d’information à décoder. On pourra coder des informations différentes en fonction de l’amplitude de ces déformations. Il existe donc une forte corrélation entre le ratio d’information encodé et la déformation géométrique du caractère marqué. Les outils d’analyse et de production des caractères marqués devront par conséquent être en mesure de caractériser cette corrélation.
Les règles, c’est-à-dire le message à extraire du document marqué, seront donc définies en tenant compte d’un système de cryptage/encapsulation qui sera fonction du ratio obtenu par l’étude de l’impact des déformations géométriques sur les caractères modifiés. Un document comportera un message qui pourra être relié à une base de données côté serveur pour permettre la description détaillée de celui-ci. L’analyse du document marqué fournira un message qu’il faudra alors décrypter. Une des pistes que nous envisageons, est d’encoder le message par un système de vérification/validation. Ceci pourra être obtenu par l’implémentation de codes vérificateurs, codes correcteurs d’erreurs et/ou également d’une redondance du message au sein du document.
Même si l’origine des codes correcteurs est liée à la transmission des données, contexte dans lequel le canal de transmission ou de communication est vu comme un élément non fiable entrainant des perturbations aléatoires, notre problématique s’applique également au contexte de ces codes correcteurs. En effet, ici le canal de communication sera simplement remplacé par les phases de numérisation/impression et de reconnaissance des caractères modifiés qui peuvent également entrainer des perturbations dans la chaine de traitement. Différents types de codes correcteurs existent et leur rôles varient de la détection des erreurs à leurs corrections: sommes de contrôle, code de Hamming [Hamming 50], BCH [Bose 60, Hocquenghem 59], Reed-Solomon [Reed 60], Turbo code [Berrou 93a,b], LDPC [Gallager 60]. Un compromis performance/temps d’exécution devra être trouvé dans l’implémentation de ces codes pour l’encryptage des données dans le document marqué. La redondance, même si elle diminue le ratio, sera très certainement utilisée en plus d’autres procédés car elle présente l’avantage de protéger également des sous-parties du document, au cas où celui-ci ne soit pas présenté à l’étape de numérisation dans son intégralité. Elle permettra par conséquent une meilleure robustesse de la protection dudit document.
Le développement de marquages supplémentaires et complémentaires intégrés dans des éléments graphiques nécessitera également la mise en place d’un système de codage. Celui-ci sera donc ensuite associé au système caractérisant les règles définies sur la partie textuelle.

Compétences à l’issue de la thèse
Traitement des images, reconnaissance des formes, sécurité informatique, stéganographie.

Mots clés (séparés par des virgules)
Traitement des images; reconnaissance des formes; sécurité informatique; stéganographie; analyse de documents;cryptographie
Conditions restrictive de candidature (nationalité, âge, …) : NON

Expérience/profil souhaité(e)
Ce sujet requiert avant tout des compétences en analyse d’image, et en reconnaissance des formes. Des compétences en cryptographie pourront être appréciées.
Maîtrise des langages de programmation classique de l’informatique moderne nécessaire.

Modalité de dépôt des candidatures
Envoyer CV + lettre motivation. Un entretien sera organisé pour les candidatures retenues

Directeur de thèse
JEan-Marc Ogier,
Adresse mail du directeur de thèse : [jean-marc.ogier@univ-lr.fr

Téléphone Directeur de thèse : 0546458262

Co-directeur de thèse
Petra Gomez
Adresse mail du co-directeur de thèse : Petra.Gomez@univ-lr.fr
Cofinancement LABEX SigmaLIM demandé : NON
Thèse pour Action transverse : NON

Recherche

Menu principal

Haut de page