WOT

Thursday, March 23, 2023

Google abre el acceso anticipado a su rival de ChatGPT, Bard

De: the Verge 

Bard


Google permite acceso limitado a Bard, su rival ChatGPT, un paso importante en el intento de la compañía de recuperar lo que muchos ven como terreno perdido en una nueva carrera para implementar IA. Bard estará inicialmente disponible para usuarios seleccionados en EE. UU. y el Reino Unido, y los usuarios podrán unirse a una lista de espera en bard.google.com, aunque Google dice que la implementación será lenta y no ha ofrecido una fecha para el acceso público completo.

Sunday, March 12, 2023

ChatGPT frente a Google Bard: comparación de las diferentes técnicas

Subscribe to Pictory (to get a 20% discount, enter the code francisco26) 


El siguiente artículo es una traducción del original que aparece en KDnuggets


ChatGPT frente a Google Bard: comparación de las diferentes técnicas

Máxima rivalidad: ¡ChatGPT frente a Google Bard! Presentamos una comparación de las diferencias técnicas entre estos dos motores de IA.

De Nate Rosidi, KDnuggets el 8de marzo de 2023 en Artificial Intelligence



La mayor diferencia entre Google Bard y ChatGPT es que, en el momento de escribir este artículo, Bard conoce ChatGPT pero ChatGPT ignora felizmente a Bard. Pero podemos utilizar ChatGPT, mientras que Google Bard todavía está fuera del alcance de la mayoría de nosotros.



Captura de pantalla de ChatGPT


No estoy familiarizado con el modelo lingüístico o el sistema de IA llamado “bard” que se comercializa específicamente como mi competidor. Sin embargo, existen otros muchos modelos lingüísticos y sistemas de IA, y es posible que uno de ellos podría tener ese nombre o referirse a él un "competidor" de alguna manera.

Como modelo lingüístico de IA, me centro fundamentalmente en la generación de respuestas similares a las que proporcionan las personas, sobre una amplia variedad de preguntas e indicaciones, y proporciono información útil y ayuda a los usuarios. Estoy constantemente aprendiendo y actualizando mi conocimiento básico, para proporcionar las respuestas más precisas y útiles posible, independientemente de cualquier otro sistema de IA o competidores que puedan existir.

Traducción de la anterior captura de pantalla de ChatGPT

 

El comienzo de la batalla entre ChatGPT y Google Bard

Tanto ChatGPT como Google Bard son chatbots de inteligencia artificial. La versión más sencilla de esta tecnología ya existe en tu smartphone: escribes "Buenos" y tu teléfono predice que la siguiente palabra que podrías querer usar es "días".

OpenAI desarrolló originalmente ChatGPT y, posteriormente, Microsoft invirtió en él la friolera de 10.000 millones de dólares (además de una inversión anterior de 1.000 millones). Google, presa de un ligero pánico ante la posibilidad de que su monopolio de búsqueda llegara a su fin, respondió desvelando Bard, su versión tecnológica con algunos fallos. En su primera demostración en directo, Bard cometió varios errores. Una vergüenza para Google, por no decir otra cosa.

ChatGPT y Google Bard son un poco más sofisticados que el texto predictivo de un teléfono inteligente, pero para comprender las diferencias entre los dos chatbots de IA, eso es todo lo que se necesita saber para empezar.

Echemos un vistazo más a fondo a las diferencias técnicas entre estos dos motores de IA.

ChatGPT frente Bard: ¿qué hay en su interior?

Si lo que buscas es una tabla rápida y sencilla para conocer las diferencias técnicas entre los dos motores, aquí tienes exactamente eso. Si deseas tener una visión más matizada, la encontrarás más adelante.

ChatGPT

Bard

Modelo

GPT-3.5

LaMDA, o modelo lingüístico para aplicaciones de diálogos

Arquitectura de red neuronal

Transformador

Transformador

Datos de entrenamiento

Texto web, principalmente un conjunto de datos llamado "rastreo común", con fecha límite a mediados de 2021

1,56 millones de palabras de datos de diálogos públicos y texto web

Propósito

Es un chatbot polivalente de generación de texto

Específico para ayudar a la búsqueda

Parámetros

175.000 millones de parámetros 

137.000 millones de parámetros

Creador

OpenAI

Google

Ventajas

- En este momento, abierto a todos

- Más flexible y con capacidad de texto abierto

- Corte de datos de entrenamiento en 2021

- Datos de entrenamiento hasta el día de hoy

- Entrenado específicamente para el diálogo, por lo que cuando se utiliza para hablar tiene una expresión más parecida a la de las personas

Desventajas

- El diálogo no es tan convincente

- No está cuidadosamente ajustado

- Actualmente no está disponible

- Puede que no sea tan adecuado para la creación de texto general

 

Ahora que ya conocemos lo fundamental, vamos a profundizar en estas métricas.

 

¿Qué es ChatGPT?

 

ChatGPT irrumpió en escena el 30 de noviembre de 2022. El 4 de diciembre de 2022, el servicio tenía más de un millón de usuarios diarios. En enero de 2023, ese número se disparó a más de 100 millones de usuarios. Se hizo rápidamente popular por la razón básica de que podía ofrecerle respuestas sólidas sobre una serie de temas de manera que tratarse de una persona, y era accesible para cualquier usuario con conexión a Internet.

OpenAI es un laboratorio de IA con sede en San Francisco, orientado a en crear una IA amigable, desarrolló ChatGPT. El chatbot se encuentra en GPT-3.5, que es un importante modelo lingüístico que, cuando se le proporciona texto, puede continuar la conversación.

Además, ChatGPT recibió formación adicional: las personas que fueron formadores mejoraron el modelo interactuando con él y le "recompensaron" por dar respuestas de mayor calidad.

 

Datos de entrenamiento

GPT-3.5 se entrenó con un enorme conjunto de datos de texto web, incluido un popular conjunto de datos llamado Common Crawl. Common Crawl contiene petabytes de datos web con datos de páginas web sin procesar, extractos de metadatos y extractos de texto. Incluye, por ejemplo, una colección de nuestras propias URL de StrataScratch. ¿No es increíble pensar que ChatGPT fue entrenado utilizando sitios web que visitamos todos los días?

Common Crawl fue responsable del 60% de los datos de entrenamiento, pero GPT-3.5 también obtuvo datos de otras fuentes.

Datos de entrenamiento de GPT-3

Conjunto de datos

# tokens

Proporción en el entrenamiento

Common Crawl

410.000 millones

60%

WebText2

19.000 millones

22%

Books1

12.000 millones

8%

Books2

55.000 millones

8%

Wikipedia

3 millones

3%

fuentee: Wikipedia

 ¿Qué es Bard  de Google?

Bard es la respuesta de Google a la popularidad de ChatGPT. A diferencia de ChatGPT, Bard funciona con el propio modelo LaMDA de Google, que es la abreviatura de Language Model for Dialogue Applications (modelo lingüístico para aplicaciones de diálogo). Y a diferencia de ChatGPT, no es tan emocionante por la sencilla razón de que la mayoría de las personas aún no pueden acceder a él. Aunque Google presentó una demostración de Bard plagada de errores a principios de febrero, en este momento solo está disponible para unos pocos seleccionados.

La principal ventaja de Google Bard es que está abierto a Internet. Pregúntale a ChatGPT quién es el presidente y no lo sabrá. Esto se debe a que los datos de entrenamiento se cortaron a mediados de 2021. Bard, por su parte, se basa en la información que existe hoy en Internet. Pregúntale a Bard y, en teoría, Bard debería ser capaz de tirar de los datos disponibles en Internet hoy en día para decirte quién es el presidente.

Aunque todavía no podemos probarlo, es fácil ver cómo Bard se destaca de ChatGPT en algunos aspectos clave.






Fuente: Entrada del blog de Google sobre LaMDA

 

Datos de entrenamiento

En primer lugar, LaMDA se entrenó para el diálogo, específicamente para mantener una conversación, no solo para producir texto como lo hacen los modelos GPT-n. Si bien ChatGPT no oculta sus datos de entrenamiento, simplemente no sabemos mucho, todavía, sobre los datos en los que se entrenó a Bard.

Podemos extrapolar algo mirando el documento de investigación de LaMDA. Los investigadores de Google dicen que el 12,5% de los datos de entrenamiento proceden de Common Crawl, como los modelos GPT-n. Otro 12,5% procede de Wikipedia. Y según el documento de investigación, utilizaron 1,56 billones de palabras de "datos de diálogos públicos y texto web".

Aquí está el desglose completo:

12,5 % de datos basados en C4 (un derivado de los datos de Common Crawl)

12,5% Wikipedia en inglés

12,5 % de documentos de código de programación de sitios web de preguntas y respuestas, tutoriales y otros

6,25% Documentos web en inglés

6,25 % de documentos web en idiomas distintos del inglés

50% datos de diálogos de foros públicos

 

Conocemos los datos de Common Crawl y, obviamente, conocemos Wikipedia. ¿El resto? Está intencionalmente oculto, presumiblemente para mantener a Bard (y LaMDA) a salvo de los imitadores.

LaMDA was built by fine-tuning a family of Transformer-based neural language models, which are an open-source neural network architecture originally developed by Google. (Fun side note - GPT is also built on Transformer.) LaMDA se creó ajustando una familia de modelos lingüísticos neuronales basados en Transformadores, que son una arquitectura de red neuronal de código abierto desarrollada originalmente por Google. (Una divertida nota al margen: GPT también se basa en Transformadores).

 



Fuente: Entrada del blog de Google sobre Bard 

 

ChatGPT tiene algunas barreras que evitan que se vuelva demasiado desagradable o que diga tonterías, pero Google ha hecho especial hincapié en cómo han creado cuidadosamente garantías de calidad para hacer de Bard un chatbot mejor y más seguro. Bard está ajustado para promover "la calidad, el fundamento y la seguridad".

Google tiene mucho que decir al respecto, y te recomiendo que leas la entrada de su blog sobre el tema, pero si tienes poco tiempo, básicamente se reduce a esto:

 

• Bard debe dar respuestas que tengan sentido, nada absurdas, sin contradicciones

• Bard debe dar respuestas perspicaces, ingeniosas o inesperadas en el buen sentido

• Bard debe evitar cualquier cosa que pueda dañar al usuario: violencia, parcialidad, estereotipos odiosos, por mencionar algunos.

• Bard no debería inventar cosas

 

Thanks to a faulty launch, we already know that Google hasn’t quite figured out that bottom requirement. But it is notable that Google is speaking so clearly about these design requirements in a way that ChatGPT just hasn’t – at least not yet. Gracias a un lanzamiento defectuoso, ya sabemos que Google no ha resuelto del todo el último requisito. Pero es notable que Google esté hablando tan claramente sobre estos requisitos de diseño de una manera que ChatGPT simplemente no lo ha hecho, al menos todavía.

 

ChatGPT frente a Google Bard: el parámetro del modelo y su importancia

 

ChatGPT tiene más parámetros de modelo que Bard: 175.000 millones frente a 137.000 millones. Se puede pensar en los parámetros como mandos o palancas que el modelo ajusta para adaptarse a los datos con los que se está entrenando. Un mayor número de parámetros suele significar que el modelo tiene más capacidad para captar relaciones complejas en el lenguaje, pero también corre el riesgo de sobreajustarse.

Google Bard puede ser menos flexible, pero también puede ser más robusto para nuevos casos de uso del lenguaje en comparación con ChatGPT.

 

ChatGPT frente a Google Bard: ¿qué tienen en común?

 

Cabe destacar que tanto Bard como ChatGPT se basan en modelos (LaMDA y GPT-3.5 respectivamente) que se apoyan en redes neuronales de aprendizaje profundo basadas en Transformadores.

Los transformadores puede hacer que un modelo entrenado para leer una frase o un párrafo, por ejemplo, preste atención a cómo esas palabras se relacionan entre sí y luego pronostique qué palabras cree que vendrán después, de forma similar al texto predictivo de tu smartphone, como he mencionado antes.

No voy a entrar en detalles, pero todo lo que tienes que saber es que, en el fondo, Bard y ChatGPT no son muy diferentes.

 

ChatGPT frente a Google Bard: propiedad

 

Si bien la propiedad no es exactamente una diferencia técnica, vale la pena tenerla en cuenta.

Google Bard is produced and owned wholly by Google, on top of LaMDA, which is also created by Google. Google Bard lo ha producido y es propiedad de Google en su totalidad, además de LaMDA, que también lo ha creado Google.

ChatGPT lo ha desarrollado OpenAI, un laboratorio de investigación de IA con sede en San Francisco. OpenAI originalmente era una organización sin fines de lucro, pero creó una subsidiaria con fines de lucro en 2019. OpenAI también estuvo detrás de Dall-E, la generación de texto a imagen de IA con la que quizás hayas practicado.

Si bien Microsoft ha invertido mucho dinero en OpenAI, por el momento es una organización de investigación independiente.

 

¿Cuál es mejor, ChatGPT o Google Bard?

 

Resulta difícil dar una respuesta justa a esta pregunta porque ambos son muy similares, pero muy diferentes. Por un lado, casi nadie puede acceder a Google Bard en este momento. Por otro lado, los datos de entrenamiento de ChatGPT se cortaron hace casi dos años.

Both are text generators - you offer a prompt, and both Google Bard and ChatGPT can answer it. Both have billions of parameters to fine-tune the model. Both have overlapping training data sources, and both are built on Transformer, the same neural network model. Ambos son generadores de texto: formulas una pregunta y tanto Google Bard como ChatGPT pueden responderla. Ambos tienen miles de millones de parámetros para ajustar el modelo. Ambos tienen fuentes de datos de entrenamiento superpuestas y ambos se basan en Transformadores, el mismo modelo de red neuronal.

Además, están diseñados para fines distintos. Bard te ayudará a navegar por la búsqueda de Google. Está diseñado para ser conversacional. ChatGPT puede generar entradas de blog enteras. Está diseñado para escupir trozos de texto que tengan sentido.

 

En última instancia, las diferencias técnicas entre ChatGPT y Google Bard no hacen más que subrayar lo lejos que ha llegado la tecnología de generación de texto mediante IA. Aunque a ambos les queda camino por recorrer, y ambos se han enfrentado a polémicas sobre los derechos de autor y de ética, ambos generadores son potentes demostraciones de los modelos modernos de IA.


 
Nate Rosidi es científico de datos y experto en estrategia de producto. También es profesor adjunto de análisis y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas de entrevistas reales de las principales empresas. Contacte con él en Twitter: StrataScratch o LinkedIn.