Analizando Millones de URLs por Segundo

Rate this content
Bookmark

Con el fin de la escala de Dennard, el costo de la computación ya no está disminuyendo a nivel de hardware: para mejorar la eficiencia, necesitamos un mejor software. A veces, los entornos de ejecución de JavaScript competidores son más rápidos que Node.js: ¿podemos cerrar la brecha? Mostramos que Node.js no solo puede igualar a los competidores más rápidos, sino que incluso puede superarlos con suficiente esfuerzo. Las URL son el elemento más fundamental en las aplicaciones web. Node.js 16 era significativamente más lento que los motores competidores (Bun y Deno) en el análisis de URL. Al reducir el número de instrucciones y vectorizar subalgoritmos, multiplicamos por tres la velocidad de análisis de URL en Node.js (a partir de Node.js 20). Si ha actualizado Node.js, tiene el motor JavaScript con el análisis de URL más rápido de la industria con un soporte intransigente para el último estándar de URL WHATGL. Compartimos nuestras estrategias para acelerar tanto el procesamiento de C++ como el de JavaScript en la práctica.

 Yagiz Nizipli
Yagiz Nizipli
14 min
04 Apr, 2024

Comments

Sign in or register to post your comment.

Video Summary and Transcription

La charla de hoy explora el rendimiento del análisis de URL en Node.js e introduce el analizador de URL ADA, que puede analizar 6 millones de URL por segundo. El analizador de URL ADA incluye optimizaciones como hashing perfecto, tablas de memoización y vectorización. Está disponible en varios lenguajes y tiene enlaces para los lenguajes de programación populares. Para obtener más información, comuníquese con Ada URL y el blog de Daniel Lemire.

Available in English

1. URL Parsing and Performance

Short description:

La charla de hoy trata sobre el análisis de millones de URLs por segundo y lograr una mejora del 400%. Exploraremos el rendimiento de Node.js en 2023 y el impacto de una nueva dependencia de análisis de URLs. También discutiremos la estructura de una URL y los diferentes componentes involucrados.

Hola. Hoy voy a hablar sobre el análisis de millones de URLs por segundo. Mi nombre es Elzen Zipli y soy un ingeniero de software senior en Sentry. Soy miembro del comité directivo técnico de OGS. Soy miembro del consejo de proyectos cruzados de la Fundación OpenJS. Puedes contactarme a través de mi cuenta de GitHub, github.com, y a través de X, anteriormente conocido como Twitter, en X.com. El rendimiento del software en la última década ha cambiado drásticamente. El objetivo principal era reducir costos en entornos de nube como AWS, Azure o Google Cloud. La latencia ha sido un problema y, para mejorarla, necesitamos optimizar nuestro código más que nunca. Reducir la complejidad, el paralelismo, la caché y el rendimiento trae ese tipo de cosas. Y lo más importante, el cambio climático. Las computadoras más rápidas han dado lugar a un mejor futuro y un mejor clima. Entonces, el estado del rendimiento de Node.js en 2023. Esta es una cita de eso. Desde Node.js 18, se agregó una nueva dependencia de análisis de URLs a Node.js 8. Esta adición eleva el rendimiento de Node.js en el análisis de URLs a un nuevo nivel. Algunos resultados pueden alcanzar una mejora del 400%. Estado del rendimiento de Node.js en 2023 y esto está escrito por Rafael Gonzaga, que es miembro del comité directivo técnico de Node.js. Esta charla trata sobre cómo logramos una mejora del 400% en el análisis de URLs. Otra cita de James Snell de Cloudflare y también del TSC de Node.js. Simplemente establece un punto de referencia para un cambio de código, pasa de tardar 11 segundos en completarse a aproximadamente medio segundo en completarse, esto me hace muy feliz. Esto se refiere a la adición de Ada URL a Cloudflare. Entonces, comencemos con la estructura de una URL. Por ejemplo, tenemos HTTPS usuario contraseña en example.com, 1 2 3 4, que es el número de puerto, luego tenemos Foo, Bar, Buzz y QUU. Comienza con el protocolo, HTTPS es el protocolo, termina con la barra. Luego tenemos el nombre de usuario y la contraseña. Este es un campo opcional en todas las URLs. Luego tenemos el nombre de host, que es example.com. Luego tenemos el puerto, que es 1 2 3 4. Y luego

2. URL Parsing and Assumptions

Short description:

Las URL tienen varios componentes opcionales, diferentes codificaciones y admiten diferentes tipos de URL como URL basadas en archivos, URL de JavaScript y nombres de ruta con puntos. Implementaciones como PHP, Python, curl y Go siguen diferentes especificaciones de análisis de URL. Desafiamos las suposiciones de que el análisis de URL no importa y que las URL son gratuitas.

tenemos el nombre de ruta, que es barra diagonal Foo barra diagonal. Y luego vemos la búsqueda, que comienza con un signo de interrogación Buzz. Y luego tenemos el hash, que es QUU. Entonces, el número de puerto, nombre de ruta, búsqueda, hash, nombre de usuario, contraseña, todos son opcionales. Incluso el nombre de host es opcional si tienes una URL de archivo. Pero esto es solo un ejemplo de cómo es esta estructura de una URL. También hay, a pesar de la estructura de la URL, también hay diferentes codificaciones que la especificación de URL admite, como el formato no ASCII, que es el primero. Luego admitimos URL basadas en archivos, que es lo que ves en sistemas basados en Unix, archivo, barra, barra, barra, Foo, Bar, Buzz, Foo, Bar, Test, Node.js. Luego tenemos URL de JavaScript, que es JavaScript dos puntos alerta. Luego tenemos la codificación porcentual que comienza con una URL que tiene subsecciones, subcadenas que tienen un carácter de porcentaje en guion. Y luego tenemos nombres de ruta con puntos, que es como ejemplo.org barra punto A barra A punto punto barra B, que básicamente se resuelve en una URL diferente según la especificación de URL. Luego tenemos direcciones IPv4 con dígitos hexadecimales y octales, 127.0.0.0.0.0.0.0.1, que es 127.0.0.0.1. Y también tenemos IPv6 y así sucesivamente. Según lo que hacemos con la URL, si ingresamos esta cadena de entrada, HTTPS711home punto punto barra Montreal. PHP en PHP, no cambia. En Python, no cambia. En lo que hacemos con la URL, que es implementado por Chrome, Safari y todos los navegadores, incluido Ada, es xn-guion-guion-711 y así sucesivamente. En curl, es muy diferente. Y como puedes ver, en Go runtime, también es muy diferente. Esto se debe principalmente a diferentes implementaciones y también a todos los demás subsistemas, todos los demás lenguajes que no siguen estrictamente lo que hacemos con la URL. Para PHP y Python, básicamente analizan la URL desde el principio y la cadena sin hacer ninguna asignación. Y para curl y Go, implementan una especificación diferente llamada RFC 3787. O similar, no estoy muy seguro. Entonces tenemos estas suposiciones antiguas como ¿realmente importa el análisis de URL? ¿Es el cuello de botella de alguna métrica de rendimiento? Las URL son gratuitas, no ganas nada superponiéndolas.

3. Creando una Prueba de Referencia HTTP

Short description:

Creemos una prueba de referencia HTTP utilizando Festify para probar las suposiciones. Se utilizan dos puntos finales, uno que devuelve la URL sin cambios y otro que la analiza con la nueva URL y devuelve el href correspondiente. Los resultados de la comparación se muestran en la parte inferior.

Estas fueron las suposiciones que rompimos con nuestro trabajo. Y verás por qué. Así que creemos, entendamos si estas suposiciones son verdaderas. Creemos la prueba de referencia HTTP utilizando Festify. Y hay dos puntos finales que obtienes al usar un post, que es slash simple. Básicamente tiene una URL en el cuerpo JSON y lo mismo para el otro. Pero en el primero, no estamos devolviendo, estamos devolviendo la URL sin hacer nada. En el segundo, la estamos analizando con la nueva URL. Y luego estamos devolviendo el href, que es la cadena que le corresponde. Y luego, en la parte inferior, verás el ejemplo de entrada que enviamos y la comparación entre

4. Descripción general del analizador de URL ADA

Short description:

En slash simple, casi tenemos 60,000 solicitudes por segundo. Pero si lo analizamos, tenemos alrededor de 50,000, 50, 52, tal vez 52,000. El análisis de URL era un cuello de botella en el nodo 18.50. Anunciamos el analizador de URL ADA, llamado así por mi hija Ada Nisiply. Es un analizador de URL completo compatible con what-vg, sin dependencias ni ICU, con más de 20,000 líneas de código, utilizado por Node.js y CloudFlare workers, y puede analizar 6 millones de URL por segundo. Es más rápido que las alternativas en C, C++ y ROS.

En slash simple, casi tenemos 60,000 solicitudes por segundo. Pero si lo analizamos, tenemos alrededor de 50,000, 50, 52, tal vez 52,000. Por lo tanto, el análisis de URL era un cuello de botella en el nodo 18.50. Así que esto se ejecuta en el nodo 18.50, antes de ADA, antes de cualquier optimización que se haga en el análisis de URL. Así que anunciamos el analizador de URL ADA, que lleva el nombre de mi hija, Ada Nisiply. Es un analizador de URL completo compatible con what-vg. No tiene dependencias, es completamente portátil. Esto significa que no incluye ICU. Tiene más de 20,000 líneas de code. Es el trabajo de seis meses de 25 colaboradores. Tiene licencia Apache 2.0 y MIT. Está disponible en github.com. Actualmente es utilizado por Node.js y CloudFlare workers. En general, puede analizar 6 millones de URL por segundo. Esta prueba de referencia que estoy compartiendo con ustedes se ejecuta en Apple M2, LLVM 14. Tiene una amplia gama de fuentes de datos realistas. Y es más rápido que las alternativas en C, C++ y ROS. Y para las bibliotecas que implementan what-vg URL, también es mucho más rápido. En el lado derecho, verán Wikipedia 100k, que es 100,000 URL analizadas y analizadas del dominio de Wikipedia. Top 100 son los sitios web con más tráfico del mundo. Y el tercero son los archivos de Linux. Básicamente, rastreamos el sistema operativo Linux y almacenamos cada ruta. Luego tenemos la base de usuarios y el HTTP que encontramos en Internet. Como pueden ver, Ada es casi el doble de rápido que la segunda alternativa. Es alrededor de un 6 a 7% más rápido que curl en este momento. Para lograr eso, tenemos algunos trucos que en general te darán un

5. Optimizaciones para el Análisis de URL

Short description:

El primer truco es la perfect hashing. Redujimos el número de ramificaciones. Se utilizaron tablas de memoización para reducir las declaraciones condicionales y almacenar los valores ya analizados. La vectorización permite procesar 16 elementos a la vez. La base de código se mejoró en un 60, 70, 80 por ciento. Hay un benchmark de JavaScript disponible para realizar pruebas. La biblioteca Ada C++ es segura y eficiente.

La idea de cómo logramos estos resultados asombrosos. El primer truco es la perfect hashing. Esto significa que hemos reducido el número de ramificaciones. Y si puedes ver, tenemos nombres de una matriz de vista de cadena, HTTP, HTTPS, W, FTP, WSS file. Luego tenemos estos contextos llamados HTTP, no URLs especiales, HTTPS, WS, que corresponden a los web sockets, FTP, WSS y file. Estos tipos corresponden al esquema de URL what-vg. Y para obtener el tipo de esquema a partir de aquí, utilizamos un algoritmo para encontrar perfectamente la posición correcta dentro de la matriz de nombres de la entrada que tenemos. Y este es uno de los ejemplos. El segundo truco es, por supuesto, las tablas de memoización. Para reducir el número de ramificaciones y reducir las declaraciones condicionales, lo que hicimos fue utilizar operaciones a nivel de bits y obtener los valores ya analizados de una tabla en sí. Al hacer eso, tenemos una tabla de carga que contiene 255 caracteres y almacena cero o uno según si es un carácter malo o no. Este es un gran ejemplo de cómo mejorar el rendimiento de una función y, al mismo tiempo, aumentar el tamaño del binario. El tercero es utilizar la vectorización. Por lo tanto, no proceses byte por byte cuando puedes procesar 16 por 16. Los nuevos procesadores en el mundo actualmente admiten la iteración de vectorización de 16 por 16 a través de la matriz, por lo que no necesitamos iterar uno por uno. Y, por ejemplo, este ejemplo tiene tabulaciones o una nueva línea. Para entender si una cadena en particular tiene un carácter de tabulación o una nueva línea, utilizamos el siguiente ejemplo. No voy a profundizar en esto por el bien de hoy, pero la información está disponible y hay optimizaciones disponibles para aumentar la iteración y el tiempo de ejecución de un bucle for básico con ciertos trucos. Además de estas eficientes bibliotecas de C++ y JavaScript, estas optimizaciones, proporcionamos un puente eficiente entre JavaScript y la implementación de C++. Esto se hace especialmente para la integración con Node.js para que el costo de serialización de la conversión de cadena a cadena de C++ a JavaScript se reduzca lo máximo posible. Pasar múltiples cadenas es costoso, y pasar una cadena con un desplazamiento. Básicamente, tenemos un href y devolvemos ocho enteros diferentes que corresponden al final del protocolo, final del nombre de usuario, inicio del host, final del host, etc. Entonces, si conocemos el final del protocolo, puedes tomar la subcadena del href tomando de cero al final del protocolo, por ejemplo, y si tienes un nombre de usuario, etc. Estas son optimizaciones que mejoran la base de código en un 60, 70, 80 por ciento. Aquí tienes un ejemplo de benchmark de JavaScript. Básicamente, toma líneas y trata de analizarlas y agrega la longitud del href a un valor y luego cuenta las URL buenas y las URL malas. Esto se hace para eliminar las optimizaciones del compilador JIT para deshabilitar esa eliminación de código en V8. El benchmark está disponible en github.com/adurl/gs-url-benchmark y por favor, échale un vistazo y si hay algo que nos hayamos perdido, por favor, tómate el tiempo para crear un problema en el repositorio de GitHub. Este benchmark en particular en el nodo 18.15.0 ejecutó alrededor de 0.8 millones de URL por segundo. En ese momento, dno 1.32.5 estaba haciendo 0.9 millones, bun 0.5.9 estaba alrededor de 1.5 millones, y en el nodo 20.1.0, ahora mismo es de 2.9 millones.

6. Pruebas, Disponibilidad de Lenguajes y Contacto

Short description:

Lo escribimos en C++ moderno. Realizamos pruebas exhaustivas con sanitizadores y fuzzing. Los errores menores se corrigieron rápidamente. Ada está disponible en varios lenguajes, incluyendo JavaScript (Node.js), y tiene enlaces para Rust, Go, Python y R. Ponte en contacto con Ada URL y el blog de Daniel Lemire para obtener más información.

URLs por segundo. La biblioteca Ada C++ es segura y eficiente. Lo escribimos en C++ moderno. Realizamos pruebas exhaustivas. Probamos con sanitizadores. Realizamos fuzzing testing. Tenemos muchas unit tests que contribuyeron especialmente a las pruebas de la plataforma web. Se informaron algunos errores menores en los últimos meses, principalmente relacionados con el estándar. Los corregimos rápidamente en menos de 24 horas.

Ada está disponible en el lenguaje de tu elección. En JavaScript, está disponible en Node.js. Tenemos enlaces en C en GitHub. Tenemos Rust, Go, Python y R. A menudo, esta es la única forma de obtener soporte en esos lenguajes en particular. Gracias por escuchar. Puedes ponerte en contacto con Ada URL en AdaURL.com. Puedes ponerte en contacto con mi blog en y puedes ponerte en contacto con el blog de mi coautor, Daniel Lemire, en lemire.me. Gracias.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

It's a Jungle Out There: What's Really Going on Inside Your Node_Modules Folder
Node Congress 2022Node Congress 2022
26 min
It's a Jungle Out There: What's Really Going on Inside Your Node_Modules Folder
Top Content
Do you know what’s really going on in your node_modules folder? Software supply chain attacks have exploded over the past 12 months and they’re only accelerating in 2022 and beyond. We’ll dive into examples of recent supply chain attacks and what concrete steps you can take to protect your team from this emerging threat.
You can check the slides for Feross' talk here.
Towards a Standard Library for JavaScript Runtimes
Node Congress 2022Node Congress 2022
34 min
Towards a Standard Library for JavaScript Runtimes
Top Content
You can check the slides for James' talk here.
Out of the Box Node.js Diagnostics
Node Congress 2022Node Congress 2022
34 min
Out of the Box Node.js Diagnostics
In the early years of Node.js, diagnostics and debugging were considerable pain points. Modern versions of Node have improved considerably in these areas. Features like async stack traces, heap snapshots, and CPU profiling no longer require third party modules or modifications to application source code. This talk explores the various diagnostic features that have recently been built into Node.
You can check the slides for Colin's talk here. 
ESM Loaders: Enhancing Module Loading in Node.js
JSNation 2023JSNation 2023
22 min
ESM Loaders: Enhancing Module Loading in Node.js
Native ESM support for Node.js was a chance for the Node.js project to release official support for enhancing the module loading experience, to enable use cases such as on the fly transpilation, module stubbing, support for loading modules from HTTP, and monitoring.
While CommonJS has support for all this, it was never officially supported and was done by hacking into the Node.js runtime code. ESM has fixed all this. We will look at the architecture of ESM loading in Node.js, and discuss the loader API that supports enhancing it. We will also look into advanced features such as loader chaining and off thread execution.
Node.js Compatibility in Deno
Node Congress 2022Node Congress 2022
34 min
Node.js Compatibility in Deno
Can Deno run apps and libraries authored for Node.js? What are the tradeoffs? How does it work? What’s next?
Multithreaded Logging with Pino
JSNation Live 2021JSNation Live 2021
19 min
Multithreaded Logging with Pino
Top Content
Almost every developer thinks that adding one more log line would not decrease the performance of their server... until logging becomes the biggest bottleneck for their systems! We created one of the fastest JSON loggers for Node.js: pino. One of our key decisions was to remove all "transport" to another process (or infrastructure): it reduced both CPU and memory consumption, removing any bottleneck from logging. However, this created friction and lowered the developer experience of using Pino and in-process transports is the most asked feature our user.In the upcoming version 7, we will solve this problem and increase throughput at the same time: we are introducing pino.transport() to start a worker thread that you can use to transfer your logs safely to other destinations, without sacrificing neither performance nor the developer experience.

Workshops on related topic

Node.js Masterclass
Node Congress 2023Node Congress 2023
109 min
Node.js Masterclass
Top Content
Workshop
Matteo Collina
Matteo Collina
Have you ever struggled with designing and structuring your Node.js applications? Building applications that are well organised, testable and extendable is not always easy. It can often turn out to be a lot more complicated than you expect it to be. In this live event Matteo will show you how he builds Node.js applications from scratch. You’ll learn how he approaches application design, and the philosophies that he applies to create modular, maintainable and effective applications.

Level: intermediate
Build and Deploy a Backend With Fastify & Platformatic
JSNation 2023JSNation 2023
104 min
Build and Deploy a Backend With Fastify & Platformatic
WorkshopFree
Matteo Collina
Matteo Collina
Platformatic allows you to rapidly develop GraphQL and REST APIs with minimal effort. The best part is that it also allows you to unleash the full potential of Node.js and Fastify whenever you need to. You can fully customise a Platformatic application by writing your own additional features and plugins. In the workshop, we’ll cover both our Open Source modules and our Cloud offering:- Platformatic OSS (open-source software) — Tools and libraries for rapidly building robust applications with Node.js (https://oss.platformatic.dev/).- Platformatic Cloud (currently in beta) — Our hosting platform that includes features such as preview apps, built-in metrics and integration with your Git flow (https://platformatic.dev/). 
In this workshop you'll learn how to develop APIs with Fastify and deploy them to the Platformatic Cloud.
0 to Auth in an Hour Using NodeJS SDK
Node Congress 2023Node Congress 2023
63 min
0 to Auth in an Hour Using NodeJS SDK
WorkshopFree
Asaf Shen
Asaf Shen
Passwordless authentication may seem complex, but it is simple to add it to any app using the right tool.
We will enhance a full-stack JS application (Node.JS backend + React frontend) to authenticate users with OAuth (social login) and One Time Passwords (email), including:- User authentication - Managing user interactions, returning session / refresh JWTs- Session management and validation - Storing the session for subsequent client requests, validating / refreshing sessions
At the end of the workshop, we will also touch on another approach to code authentication using frontend Descope Flows (drag-and-drop workflows), while keeping only session validation in the backend. With this, we will also show how easy it is to enable biometrics and other passwordless authentication methods.
Table of contents- A quick intro to core authentication concepts- Coding- Why passwordless matters
Prerequisites- IDE for your choice- Node 18 or higher
Building a Hyper Fast Web Server with Deno
JSNation Live 2021JSNation Live 2021
156 min
Building a Hyper Fast Web Server with Deno
WorkshopFree
Matt Landers
Will Johnston
2 authors
Deno 1.9 introduced a new web server API that takes advantage of Hyper, a fast and correct HTTP implementation for Rust. Using this API instead of the std/http implementation increases performance and provides support for HTTP2. In this workshop, learn how to create a web server utilizing Hyper under the hood and boost the performance for your web apps.
GraphQL - From Zero to Hero in 3 hours
React Summit 2022React Summit 2022
164 min
GraphQL - From Zero to Hero in 3 hours
Workshop
Pawel Sawicki
Pawel Sawicki
How to build a fullstack GraphQL application (Postgres + NestJs + React) in the shortest time possible.
All beginnings are hard. Even harder than choosing the technology is often developing a suitable architecture. Especially when it comes to GraphQL.
In this workshop, you will get a variety of best practices that you would normally have to work through over a number of projects - all in just three hours.
If you've always wanted to participate in a hackathon to get something up and running in the shortest amount of time - then take an active part in this workshop, and participate in the thought processes of the trainer.
Mastering Node.js Test Runner
TestJS Summit 2023TestJS Summit 2023
78 min
Mastering Node.js Test Runner
Workshop
Marco Ippolito
Marco Ippolito
Node.js test runner is modern, fast, and doesn't require additional libraries, but understanding and using it well can be tricky. You will learn how to use Node.js test runner to its full potential. We'll show you how it compares to other tools, how to set it up, and how to run your tests effectively. During the workshop, we'll do exercises to help you get comfortable with filtering, using native assertions, running tests in parallel, using CLI, and more. We'll also talk about working with TypeScript, making custom reports, and code coverage.