Subscribe to Pictory (to get a 20% discount, enter the code francisco26)
El siguiente artículo es una traducción del original que aparece en KDnuggets
ChatGPT frente a Google Bard:
comparación de las diferentes técnicas
Máxima rivalidad: ¡ChatGPT frente a Google Bard! Presentamos
una comparación de las diferencias técnicas entre estos dos motores de IA.
De Nate Rosidi,
KDnuggets el 8de marzo de 2023 en Artificial Intelligence
La mayor diferencia entre Google Bard y ChatGPT es que, en el
momento de escribir este artículo, Bard conoce ChatGPT pero ChatGPT ignora
felizmente a Bard. Pero podemos utilizar ChatGPT, mientras que Google Bard
todavía está fuera del alcance de la mayoría de nosotros.
Captura de pantalla de ChatGPT
No estoy familiarizado con el modelo
lingüístico o el sistema de IA llamado “bard” que se comercializa
específicamente como mi competidor. Sin embargo, existen otros muchos modelos
lingüísticos y sistemas de IA, y es posible que uno de ellos podría tener ese
nombre o referirse a él un "competidor" de alguna manera.
Como modelo lingüístico de IA, me
centro fundamentalmente en la generación de respuestas similares a las que
proporcionan las personas, sobre una amplia variedad de preguntas e
indicaciones, y proporciono información útil y ayuda a los usuarios. Estoy
constantemente aprendiendo y actualizando mi conocimiento básico, para
proporcionar las respuestas más precisas y útiles posible, independientemente
de cualquier otro sistema de IA o competidores que puedan existir.
Traducción
de la anterior captura de pantalla de ChatGPT
El comienzo de la batalla entre ChatGPT
y Google Bard
Tanto ChatGPT como Google Bard son
chatbots de inteligencia artificial. La versión más sencilla de esta tecnología
ya existe en tu smartphone: escribes "Buenos" y tu teléfono predice
que la siguiente palabra que podrías querer usar es "días".
OpenAI desarrolló originalmente ChatGPT
y, posteriormente, Microsoft invirtió en él la friolera de 10.000 millones de
dólares (además de una inversión anterior de 1.000 millones). Google, presa de
un ligero pánico ante la posibilidad de que su monopolio de búsqueda llegara a
su fin, respondió desvelando Bard, su versión tecnológica con algunos fallos.
En su primera demostración en directo, Bard cometió varios errores. Una
vergüenza para Google, por no decir otra cosa.
ChatGPT y Google Bard son un poco más
sofisticados que el texto predictivo de un teléfono inteligente, pero para
comprender las diferencias entre los dos chatbots de IA, eso es todo lo que se necesita
saber para empezar.
Echemos un vistazo más a fondo a las
diferencias técnicas entre estos dos motores de IA.
ChatGPT frente Bard: ¿qué hay en su interior?
Si lo que buscas es una tabla rápida y
sencilla para conocer las diferencias técnicas entre los dos motores, aquí
tienes exactamente eso. Si deseas tener una visión más matizada, la encontrarás
más adelante.
|
ChatGPT
|
Bard
|
Modelo
|
GPT-3.5
|
LaMDA, o modelo lingüístico para aplicaciones de
diálogos
|
Arquitectura de red neuronal
|
Transformador
|
Transformador
|
Datos de entrenamiento
|
Texto web, principalmente un
conjunto de datos llamado "rastreo común", con fecha límite a
mediados de 2021
|
1,56 millones de palabras de datos
de diálogos públicos y texto web
|
Propósito
|
Es un chatbot polivalente de
generación de texto
|
Específico para ayudar a la
búsqueda
|
Parámetros
|
175.000 millones de parámetros
|
137.000 millones de parámetros
|
Creador
|
OpenAI
|
Google
|
Ventajas
|
- En este momento, abierto a todos
- Más flexible y con capacidad de
texto abierto
- Corte de datos de entrenamiento
en 2021
|
- Datos de entrenamiento hasta el
día de hoy
- Entrenado específicamente para
el diálogo, por lo que cuando se utiliza para hablar tiene una expresión más
parecida a la de las personas
|
Desventajas
|
- El diálogo no es tan convincente
- No está cuidadosamente ajustado
|
- Actualmente no está disponible
- Puede que no sea tan adecuado
para la creación de texto general
|
Ahora que ya conocemos lo fundamental, vamos a profundizar en estas métricas.
¿Qué es ChatGPT?
ChatGPT irrumpió en escena el 30 de noviembre de 2022. El 4 de diciembre de
2022, el servicio tenía más de un millón de usuarios diarios. En enero de 2023,
ese número se disparó a más de 100 millones de usuarios. Se hizo rápidamente
popular por la razón básica de que podía ofrecerle respuestas sólidas sobre una
serie de temas de manera que tratarse de una persona, y era accesible para
cualquier usuario con conexión a Internet.
OpenAI es un laboratorio de IA con sede en San Francisco, orientado a en
crear una IA amigable, desarrolló ChatGPT. El chatbot se encuentra en GPT-3.5,
que es un importante modelo lingüístico que, cuando se le proporciona texto,
puede continuar la conversación.
Además, ChatGPT recibió formación adicional: las personas que fueron formadores
mejoraron el modelo interactuando con él y le "recompensaron" por dar
respuestas de mayor calidad.
Datos de entrenamiento
GPT-3.5 se entrenó con un enorme conjunto de datos de texto
web, incluido un popular conjunto de datos llamado Common Crawl. Common Crawl
contiene petabytes de datos web con datos de páginas web sin procesar,
extractos de metadatos y extractos de texto. Incluye, por ejemplo, una
colección de nuestras propias URL de StrataScratch. ¿No es increíble pensar que
ChatGPT fue entrenado utilizando sitios web que visitamos todos los días?
Common Crawl fue responsable del 60% de los datos de entrenamiento, pero
GPT-3.5 también obtuvo datos de otras fuentes.
Datos de entrenamiento de GPT-3
Conjunto de datos
|
# tokens
|
Proporción en el entrenamiento
|
Common Crawl
|
410.000 millones
|
60%
|
WebText2
|
19.000 millones
|
22%
|
Books1
|
12.000 millones
|
8%
|
Books2
|
55.000 millones
|
8%
|
Wikipedia
|
3 millones
|
3%
|
fuentee: Wikipedia
¿Qué es Bard de Google?
Bard es la respuesta de Google a la popularidad de ChatGPT. A diferencia de
ChatGPT, Bard funciona con el propio modelo LaMDA de Google, que es la
abreviatura de Language Model for Dialogue Applications (modelo lingüístico para
aplicaciones de diálogo). Y a diferencia de ChatGPT, no es tan emocionante por
la sencilla razón de que la mayoría de las personas aún no pueden acceder a él.
Aunque Google presentó una demostración de Bard plagada de errores a principios
de febrero, en este momento solo está disponible para unos pocos seleccionados.
La principal ventaja de Google Bard es que está abierto a Internet.
Pregúntale a ChatGPT quién es el presidente y no lo sabrá. Esto se debe a que
los datos de entrenamiento se cortaron a mediados de 2021. Bard, por su parte,
se basa en la información que existe hoy en Internet. Pregúntale a Bard y, en
teoría, Bard debería ser capaz de tirar de los datos disponibles en Internet
hoy en día para decirte quién es el presidente.
Aunque todavía no podemos probarlo, es fácil ver cómo Bard se destaca de
ChatGPT en algunos aspectos clave.
Fuente: Entrada del blog de Google sobre LaMDA
Datos de entrenamiento
En primer lugar, LaMDA se entrenó para el diálogo, específicamente para mantener
una conversación, no solo para producir texto como lo hacen los modelos GPT-n. Si
bien ChatGPT no oculta sus datos de entrenamiento, simplemente no sabemos
mucho, todavía, sobre los datos en los que se entrenó a Bard.
Podemos extrapolar algo mirando el documento de investigación de LaMDA. Los
investigadores de Google dicen que el 12,5% de los datos de entrenamiento
proceden de Common Crawl, como los modelos GPT-n. Otro 12,5% procede de
Wikipedia. Y según el documento de investigación, utilizaron 1,56 billones de
palabras de "datos de diálogos públicos y texto web".
Aquí está el desglose completo:
12,5 % de datos basados en C4 (un derivado de los datos de Common Crawl)
|
12,5% Wikipedia en inglés
|
12,5 % de documentos de código de
programación de sitios web de preguntas y respuestas, tutoriales y otros
|
6,25% Documentos web en inglés
|
6,25 % de documentos web en
idiomas distintos del inglés
|
50% datos de diálogos de foros
públicos
|
Conocemos los datos de Common Crawl y, obviamente, conocemos Wikipedia. ¿El
resto? Está intencionalmente oculto, presumiblemente para mantener a Bard (y
LaMDA) a salvo de los imitadores.
LaMDA was built by fine-tuning
a family of Transformer-based neural language models, which are an open-source
neural network architecture originally developed
by Google. (Fun side note - GPT
is also built on Transformer.) LaMDA se creó ajustando una familia de modelos lingüísticos neuronales
basados en Transformadores, que son una arquitectura de red neuronal de código
abierto desarrollada originalmente por Google. (Una divertida nota al margen:
GPT también se basa en Transformadores).
Fuente: Entrada del blog de Google sobre Bard
ChatGPT tiene algunas
barreras que evitan que se vuelva demasiado desagradable o que diga tonterías,
pero Google ha hecho especial hincapié en cómo han creado cuidadosamente
garantías de calidad para hacer de Bard un chatbot mejor y más seguro. Bard
está ajustado para promover "la calidad, el fundamento y la
seguridad".
Google tiene mucho que decir al respecto, y te recomiendo que leas la
entrada de su blog sobre el tema, pero si tienes poco tiempo, básicamente se
reduce a esto:
• Bard debe dar
respuestas que tengan sentido, nada absurdas, sin contradicciones
• Bard debe dar
respuestas perspicaces, ingeniosas o inesperadas en el buen sentido
• Bard debe evitar
cualquier cosa que pueda dañar al usuario: violencia, parcialidad, estereotipos
odiosos, por mencionar algunos.
• Bard no debería
inventar cosas
Thanks to a faulty launch, we
already know that Google hasn’t quite figured out that bottom requirement. But
it is notable that Google is speaking so clearly about these design
requirements in a way that ChatGPT just hasn’t – at least not yet.
Gracias a un lanzamiento defectuoso, ya sabemos que Google no ha resuelto
del todo el último requisito. Pero es notable que Google esté hablando tan
claramente sobre estos requisitos de diseño de una manera que ChatGPT
simplemente no lo ha hecho, al menos todavía.
ChatGPT frente a Google Bard: el parámetro del modelo y su importancia
ChatGPT tiene más parámetros de modelo que Bard: 175.000 millones frente a
137.000 millones. Se puede pensar en los parámetros como mandos o palancas que
el modelo ajusta para adaptarse a los datos con los que se está entrenando. Un
mayor número de parámetros suele significar que el modelo tiene más capacidad
para captar relaciones complejas en el lenguaje, pero también corre el riesgo
de sobreajustarse.
Google Bard puede ser menos flexible, pero también puede ser más robusto
para nuevos casos de uso del lenguaje en comparación con ChatGPT.
ChatGPT frente a Google Bard: ¿qué tienen en común?
Cabe destacar que
tanto Bard como ChatGPT se basan en modelos (LaMDA y GPT-3.5 respectivamente)
que se apoyan en redes neuronales de aprendizaje profundo basadas en Transformadores.
Los transformadores
puede hacer que un modelo entrenado para leer una frase o un párrafo, por
ejemplo, preste atención a cómo esas palabras se relacionan entre sí y luego pronostique
qué palabras cree que vendrán después, de forma similar al texto predictivo de
tu smartphone, como he mencionado antes.
No voy a entrar en
detalles, pero todo lo que tienes que saber es que, en el fondo, Bard y ChatGPT
no son muy diferentes.
ChatGPT frente a Google Bard: propiedad
Si bien la propiedad no es exactamente una diferencia técnica, vale la pena
tenerla en cuenta.
Google Bard is produced and
owned wholly by Google, on top of LaMDA, which is also created by Google.
Google Bard lo ha producido y es propiedad de Google en su totalidad,
además de LaMDA, que también lo ha creado Google.
ChatGPT lo ha desarrollado OpenAI, un laboratorio de investigación de IA
con sede en San Francisco. OpenAI originalmente era una organización sin fines
de lucro, pero creó una subsidiaria con fines de lucro en 2019. OpenAI también
estuvo detrás de Dall-E, la generación de texto a imagen de IA con la que
quizás hayas practicado.
Si bien Microsoft ha invertido mucho dinero en OpenAI, por el momento es
una organización de investigación independiente.
¿Cuál es mejor, ChatGPT o Google Bard?
Resulta difícil dar una respuesta justa a esta pregunta porque ambos son
muy similares, pero muy diferentes. Por un lado, casi nadie puede acceder a
Google Bard en este momento. Por otro lado, los datos de entrenamiento de
ChatGPT se cortaron hace casi dos años.
Both are text generators - you
offer a prompt, and both Google Bard and ChatGPT can answer it. Both have
billions of parameters to fine-tune the model. Both have overlapping training
data sources, and both are built on Transformer, the same neural network model.
Ambos son generadores de texto: formulas una pregunta y tanto Google Bard
como ChatGPT pueden responderla. Ambos tienen miles de millones de parámetros
para ajustar el modelo. Ambos tienen fuentes de datos de entrenamiento
superpuestas y ambos se basan en Transformadores, el mismo modelo de red
neuronal.
Además, están diseñados para fines distintos. Bard te ayudará a navegar por
la búsqueda de Google. Está diseñado para ser conversacional. ChatGPT puede
generar entradas de blog enteras. Está diseñado para escupir trozos de texto
que tengan sentido.
En última instancia, las diferencias técnicas entre ChatGPT y Google Bard
no hacen más que subrayar lo lejos que ha llegado la tecnología de generación
de texto mediante IA. Aunque a ambos les queda camino por recorrer, y ambos se
han enfrentado a polémicas sobre los derechos de autor y de ética, ambos
generadores son potentes demostraciones de los modelos modernos de IA.
Nate Rosidi es científico de datos y experto en
estrategia de producto. También es profesor adjunto de análisis y es el
fundador de StrataScratch,
una plataforma que ayuda a los científicos de datos a prepararse para sus
entrevistas con preguntas de entrevistas reales de las principales empresas. Contacte con él en Twitter: StrataScratch o LinkedIn.