ReadHTML

DescriptionReadHTML est une fonction pour Excel extrayant au format texte brut des lignes HTML balisées et éventuellement encodées ISO ou HTML

ReadHTML assure trois fonctions essentielles :
1. Le retrait des balises (l’opérateur « différent de » soit "<>" est reconnu comme n’étant pas une balise et les opérateurs "<" et ">" éventuellement présents dans le texte d’origine ne posent pas de problèmes à la fonction).
2. La conversion des codes ISO de forme : "&#nnn;" où n est un chiffre, "&#nnn;" est traduit Chr$(nnn).
3. La conversion des codes HTML de forme : "&cccc;" où "c" est un caractère (exemple si "cccccc" = "agrave" le caractère correspondant est "à").

Cette fonction n’utilise à aucun moment le modèle objet d’Excel et est autonome (càd ne fait appel à aucune sous-procédure) ainsi vous pourrez aisément la réemployer avec les autres logiciels de la suite Office (compatible versions 2003 et ultérieures).

Le classeur contenant cette fonction rappelle sous forme de tableau les codes HTML interprétés par ReadHTML (tous sur la plage Unicode U+0080 à U+00FF à l’exception de U+000D Cr, U+0022 ", U+0026 "&", U+003C "<", U+003E ">").

Ces codes HTML n’apparaissent pas dans le même ordre dans la fonction et sur le tableau Excel. L’ordre de la fonction place en tête les caractères les plus souvent utilisés dans la langue française, ceci permettant de limiter le nombre de répétitions d’une boucle optimisant ainsi cette fonction.
Versionv1.1
TypeFreeware
AuteurStéphane FILLON
Ajouté le08.12.2020
Mis à jour le13.12.2022
Téléchargements293
Téléchargerreadhtml-v1-1.xls
Aperçuexcel readhtml