We apologize for untranslated text, you can use the Google Translation button to get an automatic translation of the web page in the language of your choice.

détection des doublons

Yann Barthélemy · on 1/5/18 at 11:50 AM

bonjour,

J'aimerais savoir si jalios travaille sur le problème des doublons. Par doublon, je veux parler des documents qui sont similaires à 95% et non pas seulement ceux qui sont parfaitement identiques.

Dans le cadre de la mise en place d'une GED, l'un des objectifs est de faire la chasse aux doublons. Idéalement, il faudrait pouvoir  alerter l'utilisateur et, éventuellement, empêcher le dépôt d'un nouveau document si un document, similaire à plus de 95%, est déjà présent dans la GED.

Je précise que je ne suis pas en train de parler de l'historique des différentes versions d'un même document mais bien du risque de voir une GED grossir inutilement faute d'une détection efficace des doublons.

cordialement

 

4 pts
Olivier Dedieu · on 1/8/18 at 7:46 AM

Nous ne travaillons pas sur ce sujet.

Pour détecter des documents identiques les principes de hash / message digest (MD5, SHA, ...) permettent d'être assez efficace.

Par contre, pour d'arriver à détecter des documents semblables et néanmoins différents ces principes ne peuvent plus être utilisés (car justement le moindre écart produit des résultats très différent).

Il existe des algorithmes pour calculer une similarité entre 2 texte (distance d'édition, similarité cosinus, ...) mais ils opère sur du texte brute. Or les documents que l'on gère sont rarement du texte brute. Il comportent une mise en forme (word, powerpoint, ...) voire ne contiennent pas du tout de texte (image, video, illustror, PSD, Autocad, zip, ...).  Il existe d'autres algorithmes dédiés à domaines particuliers (eg la recherche de photos similaires).

Et même pour la comparaison de document Word la problématique n'est pas simple. Comment doit être calculé le taux de similarité entre deux documents avec le même texte mais une mise en page complétement différente ?

 

Aussi je ne pense pas qu'il existe de techniques universelles et généralement applicables à l'identification de document similaire à "95%". Au mieux, on peut arriver à détecter les véritables doublon et à appliquer des calcul de similarité sur certains type très particulier de document.

#1

Merci pour cette réponse détaillée !

cordialement

Yann Barthélemy · on 1/8/18 at 9:49 AM
3 pts