Codificación de caracteres en JS

Rate this content
Bookmark

Las codificaciones de caracteres pueden ser confusas para cualquier desarrollador, brindando dificultades incluso para los más experimentados, por lo que muchas veces queremos obtener algo que simplemente funcione sin una comprensión profunda de los conceptos involucrados. En esta charla, Anna dará una visión general de qué son, qué proporciona el lenguaje JavaScript para interactuar con ellas y cómo evitar los errores más comunes en Node.js y en la Web.

FAQ

UTF-8 es una codificación de caracteres que es compatible con ASCII y utiliza bytes adicionales para representar caracteres que no están en el rango ASCII. Es importante porque permite una representación más amplia de caracteres mientras mantiene la compatibilidad con sistemas que soportan ASCII.

UTF-8 y UTF-16 son codificaciones de caracteres Unicode. UTF-8 es variable de 1 a 4 bytes, optimizado para caracteres ASCII que utilizan solo 1 byte. UTF-16 utiliza 2 o 4 bytes para cada carácter, siendo más eficiente para lenguajes con caracteres más complejos pero usando más espacio para caracteres ASCII.

La codificación de caracteres puede afectar el rendimiento, especialmente en términos de almacenamiento y velocidad de procesamiento. Por ejemplo, usar UTF-16 en textos principalmente ASCII desperdicia espacio, mientras que UTF-8 puede ser más eficiente. Los motores de JavaScript optimizan esto internamente, pero la elección de codificación sigue siendo relevante.

TextEncoder es una API que permite convertir cadenas de texto en JavaScript a una secuencia de bytes, generalmente en UTF-8. Se utiliza principalmente para preparar texto para ser enviado o almacenado, donde se requiere una forma binaria en lugar de texto.

Unicode es un estándar que asigna un código único para cada carácter, independientemente del sistema o lenguaje. Facilita la codificación de caracteres al asignar estos códigos a secuencias de bytes, permitiendo representar y manipular texto de múltiples lenguajes de manera uniforme.

Para medir la longitud de una cadena que incluye caracteres Unicode en JavaScript, es recomendable utilizar protocolos que tengan en cuenta los puntos de código Unicode, como iterar con 'for...of' o usar métodos que reconozcan unidades de código, ya que el método '.length' puede no reflejar la cantidad de caracteres visibles correctamente.

Anna Henningsen
Anna Henningsen
33 min
14 Apr, 2023

Comments

Sign in or register to post your comment.

Video Summary and Transcription

Las codificaciones de caracteres son importantes para convertir caracteres en bytes. UTF-8 es la codificación más comúnmente utilizada en JavaScript. Los motores de JavaScript manejan automáticamente las codificaciones de caracteres. Hay errores en Node.js relacionados con la codificación de caracteres y la manipulación de cadenas. Es importante tener precaución al trabajar con codificaciones de caracteres y elegir el método adecuado para la manipulación de cadenas.

Available in English: JS Character Encodings

1. Introducción a las Codificaciones de Caracteres

Short description:

Trabajo en MongoDB en el equipo de Herramientas para Desarrolladores. Así que vamos a empezar. ¿Por qué son importantes las codificaciones de caracteres? Tu programa normalmente se ejecuta en un sistema operativo que no tiene idea de lo que es una cadena de texto. La solución es asignar números a los caracteres y convertirlos en bytes. Las cadenas de texto y las secuencias de bytes son cosas diferentes. Históricamente, las personas idearon formas de asignar números a los caracteres, como ASCII y las codificaciones de caracteres para diferentes idiomas.

Trabajo en MongoDB en el equipo de Herramientas para Desarrolladores, así que la Shell y la GUI y la extensión de VSCode para la base de datos, pero esta charla no tiene absolutamente nada que ver con eso. Así que vamos a empezar.

Hace aproximadamente un mes vi este tweet que se hizo bastante popular en Twitter y ya sabes... Algunas personas se ríen, entienden el chiste. Obviamente, la forma más fácil de obtener la longitud de una cadena de texto en JavaScript es hacer un spread de objeto en ella, luego llamar a object.keyson.object y luego usar el método reduce del prototipo de array para sumar la longitud de ese array. Todos sabemos cuál es el chiste. Pero retrocedamos un poco.

¿Por qué las codificaciones de caracteres a veces son algo de lo que nos preocupamos o con lo que tenemos que lidiar? La situación típica en la que te encuentras es que eres un desarrollador de software y estás escribiendo software. Estás escribiendo un programa. Ese programa no existe de forma aislada. Hay algo más ahí fuera, literalmente cualquier cosa excepto tu programa, como el sistema de archivos, la red, otros programas, otros ordenadores, cualquier cosa así. Y obviamente quieres que tu software pueda comunicarse con ellos. La forma predeterminada de comunicar cualquier cosa es usar cadenas de texto. Puedes poner básicamente cualquier cosa en una cadena de texto. Cualquier dato que tengas puedes serializarlo en una cadena de texto. Así que sería bueno si pudiéramos hablar con estos otros programas usando cadenas de texto. Desafortunadamente, no funciona así.

Tu programa normalmente se ejecuta en un sistema operativo que no tiene idea de lo que es una cadena de texto. Si es un programa de Javascript, que será el caso para muchos de ustedes, una cadena de texto de Javascript es algo que el motor de Javascript entiende, pero tu sistema operativo no tiene idea de qué hacer con eso. No puedes pasarlo directamente a eso. Eso también significa que no puedes pasarlo a otras cosas. Entonces, la solución que la gente ideó es, tienes tu cadena de texto, y para cada carácter en esa cadena de texto le asignas a ese carácter un número, y luego ideas una forma ingeniosa de asignar o convertir esos números en una secuencia de bytes. Y esto parece una discusión muy básica, pero creo que es importante tener esa distinción en mente.

Cuando digo cadenas de texto, me refiero a secuencias de caracteres, como texto. Esta representación intermedia, que en su mayoría no te importa, la voy a llamar puntos de código, porque ese es el lenguaje que Unicode usa para esto, y luego tu salida es una secuencia de bytes. Obviamente, al decodificar se realizan estos pasos en sentido inverso. Si te llevas algo de esta charla, es que las cadenas de texto y las secuencias de bytes son cosas diferentes. Históricamente, la forma en que las personas han abordado esto, en los años 70 cuando los estadounidenses aún no habían descubierto que hay algo más que América en el mundo, se ideó una forma de asignar, una forma estándar de asignar números a los caracteres, y esos eran caracteres del 1 al 128, y eso es suficiente espacio para los alfabetos inglés en minúsculas y mayúsculas y algunos caracteres especiales y, ya sabes, ¿quién necesita más que eso? Luego vino la siguiente iteración, que es un poco más popular alrededor de los años 90, ya sabes, descubres que hay otros idiomas además del inglés, y dices, bueno, ASCII son 128 caracteres, así que 7 bits, los bytes suelen tener 8 bits, así que tenemos otros 128 caracteres disponibles. Y la solución que la gente ideó fue, ya sabes, probablemente vas a tener texto griego, o texto eslavo, o texto árabe, no vas a mezclar estos probablemente. Así que, para cada uno de estos, creas una codificación de caracteres.

2. Codificaciones de Caracteres y JavaScript

Short description:

Estas codificaciones de caracteres ISO-8859 son como 16 codificaciones de caracteres diferentes, cada uno de los caracteres adicionales que no son ASCII tiene un significado adicional. Unicode resuelve el problema al permitir tantos puntos de código como queramos. UTF-8 es la codificación más comúnmente utilizada y es compatible con ASCII. Por otro lado, UTF-16 utiliza dos bytes por carácter pero puede requerir cuatro bytes para ciertos caracteres. JavaScript te permite interactuar con cadenas como si estuvieran almacenadas utilizando UTF-16.

Estas codificaciones de caracteres ISO-8859 son como 16 codificaciones de caracteres diferentes cada uno de los caracteres adicionales que no son ASCII tiene un significado adicional. Pero no puedes mezclar, como no puedes tener una secuencia de un solo byte que pueda representar tanto, digamos, texto griego como árabe, y a veces puedes querer eso. Entonces, algo que se hizo popular hacia finales de los años 90 es Unicode.

Y así, Unicode resuelve ese problema diciendo, sí, no nos vamos a ceñir a codificaciones de un solo byte, simplemente vamos a tener tantos puntos de código como queramos. Hay una limitación, alrededor de un millón de puntos de código actualmente, pero eso es, quiero decir, actualmente no estamos cerca de alcanzar eso. No creo que vayamos a tener tantos emojis, así que creo que está bien. Lo que a veces es relevante para JavaScript es que los primeros 265 puntos de código coinciden con una de estas codificaciones anteriores, específicamente ISO-8859-1, eso no significa por sí mismo que sea compatible con ASCII, porque eso solo son los puntos de código, no la transformación real a secuencias de bytes. Pero luego tienes múltiples codificaciones para hacer eso, y la que todos conocemos y usamos todos los días es UTF-8, y esta es compatible con ASCII porque, ya sabes, los primeros 127 bytes coinciden exactamente con ASCII, y utiliza todos los otros bytes para, ya sabes, representar otros caracteres que no encajan en ese rango.

Y luego está UTF-16, que a las personas de JavaScript también les puede importar de vez en cuando, donde la idea es más cercana a, ya sabes, dos bytes por carácter. Esto tenía mucho sentido cuando se introdujo Unicode porque en ese momento, ya sabes, nadie esperaba que hubiera más de 65,000 caracteres de los que preocuparse. Entonces, ya sabes, dos bytes era una elección muy natural para eso. Pero con cosas como los emojis que se introducen, vamos a, hemos salido de ese rango. Entonces algunas cosas tienen que ser representadas por pares de dos bytes, por lo que cuatro bytes en total. Así que a veces la gente dice que JavaScript usa UTF-16, y bueno, puede haber algo de verdad en eso. Aquí tengo la salida de la utilidad de línea de comandos Unicode. Si nunca has usado eso, es una herramienta muy útil para obtener información sobre caracteres individuales o buscar caracteres según sus puntos de código, todas esas cosas. Sin embargo, lo escribí, estoy muy agradecido. Aquí hay un ejemplo de cómo se ve esto en UTF-16. Lo he resaltado. Y luego, ¿qué sucede cuando usas Node para imprimir la longitud de una cadena que solo contiene este único carácter de cara de hámster? Dice dos, aunque es un solo carácter. Y luego puedes profundizar y ver que, este único carácter se compara igual a una cadena compuesta por dos secuencias de escape. Y estas secuencias de escape coinciden exactamente con cómo se serializa UTF-16. Y así podrías decir, bueno, JavaScript usa UTF-16. Ya terminé. La realidad es que UTF-16 es una codificación de caracteres. Es una forma de transformar secuencias de caracteres en secuencias de bytes. No hay secuencia de bytes aquí. Esto no es un asunto de codificación. Simplemente sucede que tiene algunas similitudes. Entonces, de alguna manera, JavaScript te permite interactuar con cadenas como si estuvieran almacenadas utilizando UTF-16.

QnA

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Escalando con Remix y Micro Frontends
Remix Conf Europe 2022Remix Conf Europe 2022
23 min
Escalando con Remix y Micro Frontends
Top Content
¿Tienes un producto grande construido por muchos equipos? ¿Estás luchando para lanzar a menudo? ¿Se convirtió tu frontend en un monolito inmantenible masivo? Si, como yo, has respondido sí a cualquiera de esas preguntas, ¡esta charla es para ti! Te mostraré exactamente cómo puedes construir una arquitectura de micro frontend con Remix para resolver esos desafíos.
Componentes de Full Stack
Remix Conf Europe 2022Remix Conf Europe 2022
37 min
Componentes de Full Stack
Top Content
Remix es un marco de trabajo web que te ofrece el modelo mental simple de una aplicación de múltiples páginas (MPA) pero el poder y las capacidades de una aplicación de una sola página (SPA). Uno de los grandes desafíos de las SPA es la gestión de la red que resulta en una gran cantidad de indirecciones y código defectuoso. Esto es especialmente notable en el estado de la aplicación que Remix elimina por completo, pero también es un problema en los componentes individuales que se comunican con un punto final de backend de un solo propósito (como una búsqueda de combobox, por ejemplo).
En esta charla, Kent demostrará cómo Remix te permite construir componentes de interfaz de usuario complejos que están conectados a un backend de la manera más simple y poderosa que hayas visto. Dejándote tiempo para relajarte con tu familia o lo que sea que hagas para divertirte.
Haciendo JavaScript en WebAssembly Rápido
JSNation Live 2021JSNation Live 2021
29 min
Haciendo JavaScript en WebAssembly Rápido
Top Content
JavaScript en el navegador se ejecuta muchas veces más rápido de lo que lo hacía hace dos décadas. Y eso sucedió porque los proveedores de navegadores pasaron ese tiempo trabajando en intensivas optimizaciones de rendimiento en sus motores JavaScript.Debido a este trabajo de optimización, JavaScript ahora se está ejecutando en muchos lugares además del navegador. Pero todavía hay algunos entornos donde los motores JS no pueden aplicar esas optimizaciones de la manera correcta para hacer las cosas rápidas.Estamos trabajando para resolver esto, comenzando una nueva ola de trabajo de optimización de JavaScript. Estamos mejorando el rendimiento de JavaScript para entornos completamente diferentes, donde se aplican reglas diferentes. Y esto es posible gracias a WebAssembly. En esta charla, explicaré cómo funciona todo esto y qué vendrá a continuación.
Depuración de JS
React Summit 2023React Summit 2023
24 min
Depuración de JS
Top Content
Como desarrolladores, pasamos gran parte de nuestro tiempo depurando aplicaciones, a menudo código que ni siquiera escribimos. Lamentablemente, a pocos desarrolladores se les ha enseñado cómo abordar la depuración, es algo que la mayoría de nosotros aprendemos a través de la experiencia dolorosa. La buena noticia es que _puedes_ aprender a depurar de manera efectiva, y hay varias técnicas y herramientas clave que puedes usar para depurar aplicaciones de JS y React.
Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?
Node Congress 2022Node Congress 2022
26 min
Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?
Top Content
¿Sabes qué está pasando realmente en tu carpeta node_modules? Los ataques a la cadena de suministro de software han explotado en los últimos 12 meses y solo están acelerándose en 2022 y más allá. Profundizaremos en ejemplos de recientes ataques a la cadena de suministro y qué pasos concretos puedes tomar para proteger a tu equipo de esta amenaza emergente.
Puedes consultar las diapositivas de la charla de Feross aquí.
¿Webpack en 5 años?
JSNation 2022JSNation 2022
26 min
¿Webpack en 5 años?
Top Content
¿Qué podemos aprender de los últimos 10 años para los próximos 5 años? ¿Hay un futuro para Webpack? ¿Qué necesitamos hacer ahora?

Workshops on related topic

Uso de CodeMirror para construir un editor de JavaScript con Linting y AutoCompletado
React Day Berlin 2022React Day Berlin 2022
86 min
Uso de CodeMirror para construir un editor de JavaScript con Linting y AutoCompletado
Top Content
WorkshopFree
Hussien Khayoon
Kahvi Patel
2 authors
Usar una biblioteca puede parecer fácil a primera vista, pero ¿cómo eliges la biblioteca correcta? ¿Cómo actualizas una existente? ¿Y cómo te abres camino a través de la documentación para encontrar lo que quieres?
En esta masterclass, discutiremos todos estos puntos finos mientras pasamos por un ejemplo general de construcción de un editor de código usando CodeMirror en React. Todo mientras compartimos algunas de las sutilezas que nuestro equipo aprendió sobre el uso de esta biblioteca y algunos problemas que encontramos.
Masterclass de Node.js
Node Congress 2023Node Congress 2023
109 min
Masterclass de Node.js
Top Content
Workshop
Matteo Collina
Matteo Collina
¿Alguna vez has tenido dificultades para diseñar y estructurar tus aplicaciones Node.js? Construir aplicaciones que estén bien organizadas, sean probables y extensibles no siempre es fácil. A menudo puede resultar ser mucho más complicado de lo que esperas. En este evento en vivo, Matteo te mostrará cómo construye aplicaciones Node.js desde cero. Aprenderás cómo aborda el diseño de aplicaciones y las filosofías que aplica para crear aplicaciones modulares, mantenibles y efectivas.

Nivel: intermedio
Pruebas de Aplicaciones Web utilizando Cypress
TestJS Summit - January, 2021TestJS Summit - January, 2021
173 min
Pruebas de Aplicaciones Web utilizando Cypress
WorkshopFree
Gleb Bahmutov
Gleb Bahmutov
Este masterclass te enseñará los conceptos básicos de cómo escribir pruebas de extremo a extremo utilizando Cypress Test Runner.
Cubriremos la escritura de pruebas, abarcando todas las características de la aplicación, estructurando las pruebas, interceptando solicitudes de red y configurando los datos del backend.
Cualquier persona que conozca el lenguaje de programación JavaScript y tenga NPM instalado podrá seguir el masterclass.
Construye un potente DataGrid en pocas horas con Ag Grid
React Summit US 2023React Summit US 2023
96 min
Construye un potente DataGrid en pocas horas con Ag Grid
WorkshopFree
Mike Ryan
Mike Ryan
¿Tu aplicación React necesita mostrar eficientemente muchos (y muchos) datos en una cuadrícula? ¿Tus usuarios quieren poder buscar, ordenar, filtrar y editar datos? AG Grid es la mejor cuadrícula de JavaScript en el mundo y está llena de características, es altamente eficiente y extensible. En esta masterclass, aprenderás cómo empezar con AG Grid, cómo podemos habilitar la ordenación y el filtrado de datos en la cuadrícula, la representación de celdas y más. Saldrás de esta masterclass gratuita de 3 horas equipado con el conocimiento para implementar AG Grid en tu aplicación React.
Todos sabemos que crear nuestra propia solución de cuadrícula no es fácil, y seamos honestos, no es algo en lo que deberíamos estar trabajando. Estamos enfocados en construir un producto e impulsar la innovación. En esta masterclass, verás lo fácil que es empezar con AG Grid.
Prerrequisitos: React y JavaScript básicos
Nivel de la masterclass: Principiante
Construye y Despliega un Backend con Fastify y Platformatic
JSNation 2023JSNation 2023
104 min
Construye y Despliega un Backend con Fastify y Platformatic
WorkshopFree
Matteo Collina
Matteo Collina
Platformatic te permite desarrollar rápidamente APIs GraphQL y REST con un esfuerzo mínimo. La mejor parte es que también te permite aprovechar todo el potencial de Node.js y Fastify cuando lo necesites. Puedes personalizar completamente una aplicación de Platformatic escribiendo tus propias características y complementos adicionales. En el masterclass, cubriremos tanto nuestros módulos de código abierto como nuestra oferta en la nube:- Platformatic OSS (open-source software) — Herramientas y bibliotecas para construir rápidamente aplicaciones robustas con Node.js (https://oss.platformatic.dev/).- Platformatic Cloud (actualmente en beta) — Nuestra plataforma de alojamiento que incluye características como aplicaciones de vista previa, métricas integradas e integración con tu flujo de Git (https://platformatic.dev/).
En este masterclass aprenderás cómo desarrollar APIs con Fastify y desplegarlas en la nube de Platformatic.
0 a Auth en una Hora Usando NodeJS SDK
Node Congress 2023Node Congress 2023
63 min
0 a Auth en una Hora Usando NodeJS SDK
WorkshopFree
Asaf Shen
Asaf Shen
La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend de Node.JS + frontend de React) para autenticar usuarios con OAuth (inicio de sesión social) y contraseñas de un solo uso (correo electrónico), incluyendo:- Autenticación de usuario - Administrar interacciones de usuario, devolver JWT de sesión / actualización- Gestión y validación de sesiones - Almacenar la sesión para solicitudes de cliente posteriores, validar / actualizar sesiones
Al final del masterclass, también tocaremos otro enfoque para la autenticación de código utilizando Flujos Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.
Tabla de contenidos- Una breve introducción a los conceptos básicos de autenticación- Codificación- Por qué importa la autenticación sin contraseña
Requisitos previos- IDE de tu elección- Node 18 o superior