Analizando Millones de URLs por Segundo

Rate this content
Bookmark

Con el fin de la escala de Dennard, el costo de la computación ya no está disminuyendo a nivel de hardware: para mejorar la eficiencia, necesitamos un mejor software. A veces, los entornos de ejecución de JavaScript competidores son más rápidos que Node.js: ¿podemos cerrar la brecha? Mostramos que Node.js no solo puede igualar a los competidores más rápidos, sino que incluso puede superarlos con suficiente esfuerzo. Las URL son el elemento más fundamental en las aplicaciones web. Node.js 16 era significativamente más lento que los motores competidores (Bun y Deno) en el análisis de URL. Al reducir el número de instrucciones y vectorizar subalgoritmos, multiplicamos por tres la velocidad de análisis de URL en Node.js (a partir de Node.js 20). Si ha actualizado Node.js, tiene el motor JavaScript con el análisis de URL más rápido de la industria con un soporte intransigente para el último estándar de URL WHATGL. Compartimos nuestras estrategias para acelerar tanto el procesamiento de C++ como el de JavaScript en la práctica.

 Yagiz Nizipli
Yagiz Nizipli
14 min
04 Apr, 2024

Comments

Sign in or register to post your comment.

Video Summary and Transcription

La charla de hoy explora el rendimiento del análisis de URL en Node.js e introduce el analizador de URL ADA, que puede analizar 6 millones de URL por segundo. El analizador de URL ADA incluye optimizaciones como hashing perfecto, tablas de memoización y vectorización. Está disponible en varios lenguajes y tiene enlaces para los lenguajes de programación populares. Para obtener más información, comuníquese con Ada URL y el blog de Daniel Lemire.

1. URL Parsing and Performance

Short description:

La charla de hoy trata sobre el análisis de millones de URLs por segundo y lograr una mejora del 400%. Exploraremos el rendimiento de Node.js en 2023 y el impacto de una nueva dependencia de análisis de URLs. También discutiremos la estructura de una URL y los diferentes componentes involucrados.

Hola. Hoy voy a hablar sobre el análisis de millones de URLs por segundo. Mi nombre es Elzen Zipli y soy un ingeniero de software senior en Sentry. Soy miembro del comité directivo técnico de OGS. Soy miembro del consejo de proyectos cruzados de la Fundación OpenJS. Puedes contactarme a través de mi cuenta de GitHub, github.com, y a través de X, anteriormente conocido como Twitter, en X.com. El rendimiento del software en la última década ha cambiado drásticamente. El objetivo principal era reducir costos en entornos de nube como AWS, Azure o Google Cloud. La latencia ha sido un problema y, para mejorarla, necesitamos optimizar nuestro código más que nunca. Reducir la complejidad, el paralelismo, la caché y el rendimiento trae ese tipo de cosas. Y lo más importante, el cambio climático. Las computadoras más rápidas han dado lugar a un mejor futuro y un mejor clima. Entonces, el estado del rendimiento de Node.js en 2023. Esta es una cita de eso. Desde Node.js 18, se agregó una nueva dependencia de análisis de URLs a Node.js 8. Esta adición eleva el rendimiento de Node.js en el análisis de URLs a un nuevo nivel. Algunos resultados pueden alcanzar una mejora del 400%. Estado del rendimiento de Node.js en 2023 y esto está escrito por Rafael Gonzaga, que es miembro del comité directivo técnico de Node.js. Esta charla trata sobre cómo logramos una mejora del 400% en el análisis de URLs. Otra cita de James Snell de Cloudflare y también del TSC de Node.js. Simplemente establece un punto de referencia para un cambio de código, pasa de tardar 11 segundos en completarse a aproximadamente medio segundo en completarse, esto me hace muy feliz. Esto se refiere a la adición de Ada URL a Cloudflare. Entonces, comencemos con la estructura de una URL. Por ejemplo, tenemos HTTPS usuario contraseña en example.com, 1 2 3 4, que es el número de puerto, luego tenemos Foo, Bar, Buzz y QUU. Comienza con el protocolo, HTTPS es el protocolo, termina con la barra. Luego tenemos el nombre de usuario y la contraseña. Este es un campo opcional en todas las URLs. Luego tenemos el nombre de host, que es example.com. Luego tenemos el puerto, que es 1 2 3 4. Y luego

2. URL Parsing and Assumptions

Short description:

Las URL tienen varios componentes opcionales, diferentes codificaciones y admiten diferentes tipos de URL como URL basadas en archivos, URL de JavaScript y nombres de ruta con puntos. Implementaciones como PHP, Python, curl y Go siguen diferentes especificaciones de análisis de URL. Desafiamos las suposiciones de que el análisis de URL no importa y que las URL son gratuitas.

tenemos el nombre de ruta, que es barra diagonal Foo barra diagonal. Y luego vemos la búsqueda, que comienza con un signo de interrogación Buzz. Y luego tenemos el hash, que es QUU. Entonces, el número de puerto, nombre de ruta, búsqueda, hash, nombre de usuario, contraseña, todos son opcionales. Incluso el nombre de host es opcional si tienes una URL de archivo. Pero esto es solo un ejemplo de cómo es esta estructura de una URL. También hay, a pesar de la estructura de la URL, también hay diferentes codificaciones que la especificación de URL admite, como el formato no ASCII, que es el primero. Luego admitimos URL basadas en archivos, que es lo que ves en sistemas basados en Unix, archivo, barra, barra, barra, Foo, Bar, Buzz, Foo, Bar, Test, Node.js. Luego tenemos URL de JavaScript, que es JavaScript dos puntos alerta. Luego tenemos la codificación porcentual que comienza con una URL que tiene subsecciones, subcadenas que tienen un carácter de porcentaje en guion. Y luego tenemos nombres de ruta con puntos, que es como ejemplo.org barra punto A barra A punto punto barra B, que básicamente se resuelve en una URL diferente según la especificación de URL. Luego tenemos direcciones IPv4 con dígitos hexadecimales y octales, 127.0.0.0.0.0.0.0.1, que es 127.0.0.0.1. Y también tenemos IPv6 y así sucesivamente. Según lo que hacemos con la URL, si ingresamos esta cadena de entrada, HTTPS711home punto punto barra Montreal. PHP en PHP, no cambia. En Python, no cambia. En lo que hacemos con la URL, que es implementado por Chrome, Safari y todos los navegadores, incluido Ada, es xn-guion-guion-711 y así sucesivamente. En curl, es muy diferente. Y como puedes ver, en Go runtime, también es muy diferente. Esto se debe principalmente a diferentes implementaciones y también a todos los demás subsistemas, todos los demás lenguajes que no siguen estrictamente lo que hacemos con la URL. Para PHP y Python, básicamente analizan la URL desde el principio y la cadena sin hacer ninguna asignación. Y para curl y Go, implementan una especificación diferente llamada RFC 3787. O similar, no estoy muy seguro. Entonces tenemos estas suposiciones antiguas como ¿realmente importa el análisis de URL? ¿Es el cuello de botella de alguna métrica de rendimiento? Las URL son gratuitas, no ganas nada superponiéndolas.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?
Node Congress 2022Node Congress 2022
26 min
Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?
Top Content
¿Sabes qué está pasando realmente en tu carpeta node_modules? Los ataques a la cadena de suministro de software han explotado en los últimos 12 meses y solo están acelerándose en 2022 y más allá. Profundizaremos en ejemplos de recientes ataques a la cadena de suministro y qué pasos concretos puedes tomar para proteger a tu equipo de esta amenaza emergente.
Puedes consultar las diapositivas de la charla de Feross aquí.
Hacia una Biblioteca Estándar para Runtimes de JavaScript
Node Congress 2022Node Congress 2022
34 min
Hacia una Biblioteca Estándar para Runtimes de JavaScript
Top Content
Puedes revisar las diapositivas de la charla de James aquí.
ESM Loaders: Mejorando la carga de módulos en Node.js
JSNation 2023JSNation 2023
22 min
ESM Loaders: Mejorando la carga de módulos en Node.js
El soporte nativo de ESM para Node.js fue una oportunidad para el proyecto de Node.js de lanzar soporte oficial para mejorar la experiencia de carga de módulos, permitiendo casos de uso como la transpilación sobre la marcha, la sustitución de módulos, el soporte para cargar módulos desde HTTP y la monitorización.
Aunque CommonJS tiene soporte para todo esto, nunca fue oficialmente compatible y se hacía mediante hackeo del código de ejecución de Node.js. ESM ha solucionado todo esto. Analizaremos la arquitectura de la carga de ESM en Node.js y discutiremos la API del cargador que lo admite. También veremos características avanzadas como la concatenación de cargadores y la ejecución fuera de hilo.
Diagnostics de Node.js listos para usar
Node Congress 2022Node Congress 2022
34 min
Diagnostics de Node.js listos para usar
En los primeros años de Node.js, los diagnósticos y la depuración eran puntos problemáticos considerables. Las versiones modernas de Node han mejorado considerablemente en estas áreas. Características como seguimiento de pila asíncrono, capturas de montón y perfilado de CPU ya no requieren módulos de terceros o modificaciones en el código fuente de la aplicación. Esta charla explora las diversas características de diagnóstico que se han incorporado recientemente a Node.
Puedes consultar las diapositivas de la charla de Colin aquí. 
Compatibilidad con Node.js en Deno
Node Congress 2022Node Congress 2022
34 min
Compatibilidad con Node.js en Deno
¿Puede Deno ejecutar aplicaciones y bibliotecas creadas para Node.js? ¿Cuáles son los compromisos? ¿Cómo funciona? ¿Qué sigue?
Registro Multihilo con Pino
JSNation Live 2021JSNation Live 2021
19 min
Registro Multihilo con Pino
Top Content
Casi todos los desarrolladores piensan que agregar una línea de registro más no disminuiría el rendimiento de su servidor... ¡hasta que el registro se convierte en el mayor cuello de botella para sus sistemas! Creamos uno de los registradores JSON más rápidos para Node.js: pino. Una de nuestras decisiones clave fue eliminar todo el "transporte" a otro proceso (o infraestructura): redujo tanto el consumo de CPU como de memoria, eliminando cualquier cuello de botella del registro. Sin embargo, esto creó fricción y disminuyó la experiencia del desarrollador al usar Pino y los transportes en el proceso es la característica más solicitada por nuestro usuario.En la próxima versión 7, resolveremos este problema y aumentaremos el rendimiento al mismo tiempo: estamos introduciendo pino.transport() para iniciar un hilo de trabajo que puedes usar para transferir tus registros de forma segura a otros destinos, sin sacrificar ni el rendimiento ni la experiencia del desarrollador.

Workshops on related topic

Masterclass de Node.js
Node Congress 2023Node Congress 2023
109 min
Masterclass de Node.js
Top Content
Workshop
Matteo Collina
Matteo Collina
¿Alguna vez has tenido dificultades para diseñar y estructurar tus aplicaciones Node.js? Construir aplicaciones que estén bien organizadas, sean probables y extensibles no siempre es fácil. A menudo puede resultar ser mucho más complicado de lo que esperas. En este evento en vivo, Matteo te mostrará cómo construye aplicaciones Node.js desde cero. Aprenderás cómo aborda el diseño de aplicaciones y las filosofías que aplica para crear aplicaciones modulares, mantenibles y efectivas.

Nivel: intermedio
Construye y Despliega un Backend con Fastify y Platformatic
JSNation 2023JSNation 2023
104 min
Construye y Despliega un Backend con Fastify y Platformatic
WorkshopFree
Matteo Collina
Matteo Collina
Platformatic te permite desarrollar rápidamente APIs GraphQL y REST con un esfuerzo mínimo. La mejor parte es que también te permite aprovechar todo el potencial de Node.js y Fastify cuando lo necesites. Puedes personalizar completamente una aplicación de Platformatic escribiendo tus propias características y complementos adicionales. En el masterclass, cubriremos tanto nuestros módulos de código abierto como nuestra oferta en la nube:- Platformatic OSS (open-source software) — Herramientas y bibliotecas para construir rápidamente aplicaciones robustas con Node.js (https://oss.platformatic.dev/).- Platformatic Cloud (actualmente en beta) — Nuestra plataforma de alojamiento que incluye características como aplicaciones de vista previa, métricas integradas e integración con tu flujo de Git (https://platformatic.dev/).
En este masterclass aprenderás cómo desarrollar APIs con Fastify y desplegarlas en la nube de Platformatic.
0 a Auth en una Hora Usando NodeJS SDK
Node Congress 2023Node Congress 2023
63 min
0 a Auth en una Hora Usando NodeJS SDK
WorkshopFree
Asaf Shen
Asaf Shen
La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend de Node.JS + frontend de React) para autenticar usuarios con OAuth (inicio de sesión social) y contraseñas de un solo uso (correo electrónico), incluyendo:- Autenticación de usuario - Administrar interacciones de usuario, devolver JWT de sesión / actualización- Gestión y validación de sesiones - Almacenar la sesión para solicitudes de cliente posteriores, validar / actualizar sesiones
Al final del masterclass, también tocaremos otro enfoque para la autenticación de código utilizando Flujos Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.
Tabla de contenidos- Una breve introducción a los conceptos básicos de autenticación- Codificación- Por qué importa la autenticación sin contraseña
Requisitos previos- IDE de tu elección- Node 18 o superior
Construyendo un Servidor Web Hiper Rápido con Deno
JSNation Live 2021JSNation Live 2021
156 min
Construyendo un Servidor Web Hiper Rápido con Deno
WorkshopFree
Matt Landers
Will Johnston
2 authors
Deno 1.9 introdujo una nueva API de servidor web que aprovecha Hyper, una implementación rápida y correcta de HTTP para Rust. El uso de esta API en lugar de la implementación std/http aumenta el rendimiento y proporciona soporte para HTTP2. En este masterclass, aprende cómo crear un servidor web utilizando Hyper en el fondo y mejorar el rendimiento de tus aplicaciones web.
GraphQL: De Cero a Héroe en 3 horas
React Summit 2022React Summit 2022
164 min
GraphQL: De Cero a Héroe en 3 horas
Workshop
Pawel Sawicki
Pawel Sawicki
Cómo construir una aplicación GraphQL fullstack (Postgres + NestJs + React) en el menor tiempo posible.
Todos los comienzos son difíciles. Incluso más difícil que elegir la tecnología es desarrollar una arquitectura adecuada. Especialmente cuando se trata de GraphQL.
En este masterclass, obtendrás una variedad de mejores prácticas que normalmente tendrías que trabajar en varios proyectos, todo en solo tres horas.
Siempre has querido participar en un hackathon para poner algo en funcionamiento en el menor tiempo posible, entonces participa activamente en este masterclass y únete a los procesos de pensamiento del instructor.
Dominando Node.js Test Runner
TestJS Summit 2023TestJS Summit 2023
78 min
Dominando Node.js Test Runner
Workshop
Marco Ippolito
Marco Ippolito
Node.js test runner es moderno, rápido y no requiere bibliotecas adicionales, pero entenderlo y usarlo bien puede ser complicado. Aprenderás a utilizar Node.js test runner a su máximo potencial. Te mostraremos cómo se compara con otras herramientas, cómo configurarlo y cómo ejecutar tus pruebas de manera efectiva. Durante la masterclass, haremos ejercicios para ayudarte a sentirte cómodo con el filtrado, el uso de afirmaciones nativas, la ejecución de pruebas en paralelo, el uso de CLI y más. También hablaremos sobre trabajar con TypeScript, hacer informes personalizados y la cobertura de código.