Según Wikipedia, en UTF-8, el primer byte de una secuencia de varios bytes se denomina byte inicial , y los bytes subsiguientes de la secuencia se denominan byte de continuación .

Entiendo que estos pueden no ser los nombres "oficiales" (de hecho, el UTF-8 RFC no proporciona ningún nombre para los diferentes tipos de octetos), pero según Wikipedia y según mi investigación hasta ahora, estos parecen ser los nombres de uso común.

¿Existe un nombre especial de uso común para un byte que no es un byte inicial ni un byte de continuación (es decir, para puntos de código <128)?

Estoy documentando un código bastante complejo que está diseñado para funcionar con cadenas codificadas en UTF-8, y me gustaría asegurarme de utilizar terminología estándar para evitar confusiones.

0
todofixthis 26 ene. 2016 a las 22:11

2 respuestas

La mejor respuesta

En todas partes donde esperaría ver una definición, no puedo encontrar un término especial para esto (más allá del ASCII ya mencionado). Lo único que puedo agregar es que una "secuencia" de un byte es una secuencia legítima y que el byte no está excluido de ser llamado byte inicial.

Referencias del estándar Unicode:

  • §3.9 (PDF, pág. 119)

    Una secuencia de unidad de código puede constar de una sola unidad de código.

  • §2.5 (PDF, pág. 37)

    Se reserva un rango de valores de unidad de código de 8 bits para el primer elemento, o inicial , de una secuencia de unidades de código UTF-8, y un rango completamente disyunto de valores de unidad de código de 8 bits está reservado para los elementos subsiguientes o finales de dichas secuencias;

2
Community 20 jun. 2020 a las 09:12

Algunos se refieren a los primeros 7 bits de UTF-8 como ASCII .

2
Alastair McCormack 27 ene. 2016 a las 23:57