Qué rápida búsqueda en la web confirmará que US ASCII es un subconjunto de UTF-8, pero lo que aún no he encontrado es cómo convertir & foo; y {a sus correspondientes caracteres UTF-8 nativos.

Sé que al menos el ASCII de EE. UU. De 7 bits no ha cambiado en UTF-8, pero todavía no he visto un programa para filtrar y convertir & foo; a cómo se expresaría naturalmente en UTF-8.

0
Christos Hayward 10 oct. 2019 a las 00:26

1 respuesta

La mejor respuesta

Puede usar html_entity_decode(s, "UTF-8") en PHP o html.unescape(s) en Python.

  1. https://www.php.net/manual/en/function.html-entity-decode.php
  2. https://docs.python.org/3/library/html.html#html.unescape
1
MichaEL 10 oct. 2019 a las 14:19