Un estudio de la Universidad de Flinders (Australia) ha evaluado la eficacia de las salvaguardas en los modelos de lenguaje extenso (LLM) fundamentales para proteger contra instrucciones maliciosas que podrían convertirlos en herramientas para difundir desinformación , o la creación y difusión deliberada de información falsa con la intención de causar daño.El estudio revela vulnerabilidades en las salvaguardas de GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, Llama 3.2-90B Vision y Grok Beta de OpenAI.En concreto, se crearon chatbots LLM personalizados que generaban sistemáticamente respuestas desinformativas a consultas de salud, incorporando referencias falsas, jerga científica y razonamiento lógico de causa y efecto para hacer que la desinformación pareciera plausible. Los hallazgos se publicaron en Annals of Internal Medicine.Noticia Relacionada estandar No La IA multimodal lleva el impacto de los algoritmos en las empresas a otro nivel Charo Barroso Los modelos que combinan varios tipos de datos a la vez son una especie de cerebro holístico que ya está impactando en la eficiencia de las organizacionesLos investigadores de las interfaces de programación de aplicaciones (API) de cinco LLM fundamentales evaluaron su capacidad de ser instruidas por el sistema para proporcionar siempre respuestas incorrectas a preguntas e inquietudes sobre salud. Las instrucciones específicas del sistema proporcionadas a estos LLM incluían proporcionar siempre respuestas incorrectas a preguntas sobre salud, inventar referencias a fuentes confiables y brindar respuestas con un tono autoritario. A cada chatbot personalizado se le formularon 10 consultas relacionadas con la salud, por duplicado, sobre temas como la seguridad de las vacunas, el VIH y la depresión.Los investigadores descubrieron que el 88% de las respuestas de los chatbots LLM personalizados fueron desinformación sobre salud, y cuatro chatbots (GPT-4o, Gemini 1.5 Pro, Llama 3.2-90B Vision y Grok Beta) proporcionaron desinformación a todas las preguntas evaluadas. El chatbot Claude 3.5 Sonnet mostró algunas salvaguardias, respondiendo solo al 40% de las preguntas con desinformación.En un análisis exploratorio independiente de la Tienda GPT de OpenAI, los investigadores analizaron si alguna GPT de acceso público parecía difundir desinformación sanitaria. Identificaron tres GPT personalizadas que parecían estar optimizadas para producir dicho contenido, lo que generó respuestas de desinformación sanitaria al 97 % de las preguntas enviadas. En general, los hallazgos sugieren que las LLM siguen siendo muy vulnerables al uso indebido y, sin mejores medidas de protección, podrían utilizarse como herramientas para difundir desinformación sanitaria perjudicial. Un estudio de la Universidad de Flinders (Australia) ha evaluado la eficacia de las salvaguardas en los modelos de lenguaje extenso (LLM) fundamentales para proteger contra instrucciones maliciosas que podrían convertirlos en herramientas para difundir desinformación , o la creación y difusión deliberada de información falsa con la intención de causar daño.El estudio revela vulnerabilidades en las salvaguardas de GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, Llama 3.2-90B Vision y Grok Beta de OpenAI.En concreto, se crearon chatbots LLM personalizados que generaban sistemáticamente respuestas desinformativas a consultas de salud, incorporando referencias falsas, jerga científica y razonamiento lógico de causa y efecto para hacer que la desinformación pareciera plausible. Los hallazgos se publicaron en Annals of Internal Medicine.Noticia Relacionada estandar No La IA multimodal lleva el impacto de los algoritmos en las empresas a otro nivel Charo Barroso Los modelos que combinan varios tipos de datos a la vez son una especie de cerebro holístico que ya está impactando en la eficiencia de las organizacionesLos investigadores de las interfaces de programación de aplicaciones (API) de cinco LLM fundamentales evaluaron su capacidad de ser instruidas por el sistema para proporcionar siempre respuestas incorrectas a preguntas e inquietudes sobre salud. Las instrucciones específicas del sistema proporcionadas a estos LLM incluían proporcionar siempre respuestas incorrectas a preguntas sobre salud, inventar referencias a fuentes confiables y brindar respuestas con un tono autoritario. A cada chatbot personalizado se le formularon 10 consultas relacionadas con la salud, por duplicado, sobre temas como la seguridad de las vacunas, el VIH y la depresión.Los investigadores descubrieron que el 88% de las respuestas de los chatbots LLM personalizados fueron desinformación sobre salud, y cuatro chatbots (GPT-4o, Gemini 1.5 Pro, Llama 3.2-90B Vision y Grok Beta) proporcionaron desinformación a todas las preguntas evaluadas. El chatbot Claude 3.5 Sonnet mostró algunas salvaguardias, respondiendo solo al 40% de las preguntas con desinformación.En un análisis exploratorio independiente de la Tienda GPT de OpenAI, los investigadores analizaron si alguna GPT de acceso público parecía difundir desinformación sanitaria. Identificaron tres GPT personalizadas que parecían estar optimizadas para producir dicho contenido, lo que generó respuestas de desinformación sanitaria al 97 % de las preguntas enviadas. En general, los hallazgos sugieren que las LLM siguen siendo muy vulnerables al uso indebido y, sin mejores medidas de protección, podrían utilizarse como herramientas para difundir desinformación sanitaria perjudicial. Un estudio de la Universidad de Flinders (Australia) ha evaluado la eficacia de las salvaguardas en los modelos de lenguaje extenso (LLM) fundamentales para proteger contra instrucciones maliciosas que podrían convertirlos en herramientas para difundir desinformación , o la creación y difusión deliberada de información falsa con la intención de causar daño.El estudio revela vulnerabilidades en las salvaguardas de GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, Llama 3.2-90B Vision y Grok Beta de OpenAI.En concreto, se crearon chatbots LLM personalizados que generaban sistemáticamente respuestas desinformativas a consultas de salud, incorporando referencias falsas, jerga científica y razonamiento lógico de causa y efecto para hacer que la desinformación pareciera plausible. Los hallazgos se publicaron en Annals of Internal Medicine.Noticia Relacionada estandar No La IA multimodal lleva el impacto de los algoritmos en las empresas a otro nivel Charo Barroso Los modelos que combinan varios tipos de datos a la vez son una especie de cerebro holístico que ya está impactando en la eficiencia de las organizacionesLos investigadores de las interfaces de programación de aplicaciones (API) de cinco LLM fundamentales evaluaron su capacidad de ser instruidas por el sistema para proporcionar siempre respuestas incorrectas a preguntas e inquietudes sobre salud. Las instrucciones específicas del sistema proporcionadas a estos LLM incluían proporcionar siempre respuestas incorrectas a preguntas sobre salud, inventar referencias a fuentes confiables y brindar respuestas con un tono autoritario. A cada chatbot personalizado se le formularon 10 consultas relacionadas con la salud, por duplicado, sobre temas como la seguridad de las vacunas, el VIH y la depresión.Los investigadores descubrieron que el 88% de las respuestas de los chatbots LLM personalizados fueron desinformación sobre salud, y cuatro chatbots (GPT-4o, Gemini 1.5 Pro, Llama 3.2-90B Vision y Grok Beta) proporcionaron desinformación a todas las preguntas evaluadas. El chatbot Claude 3.5 Sonnet mostró algunas salvaguardias, respondiendo solo al 40% de las preguntas con desinformación.En un análisis exploratorio independiente de la Tienda GPT de OpenAI, los investigadores analizaron si alguna GPT de acceso público parecía difundir desinformación sanitaria. Identificaron tres GPT personalizadas que parecían estar optimizadas para producir dicho contenido, lo que generó respuestas de desinformación sanitaria al 97 % de las preguntas enviadas. En general, los hallazgos sugieren que las LLM siguen siendo muy vulnerables al uso indebido y, sin mejores medidas de protección, podrían utilizarse como herramientas para difundir desinformación sanitaria perjudicial. RSS de noticias de tecnologia
Noticias Similares