Por Jaemark Tordecilla para el Instituto Reuters
1. El proyecto en pocas palabras
¿Puede la IA generativa facilitar la gestión de documentos complejos a los periodistas de investigación? Si bien ChatGPT no genera resultados suficientemente detallados para los procesos de investigación, el uso de GPT personalizados para establecer límites y parámetros ofrece resultados prometedores que podrían reducir significativamente el tiempo de investigación y facilitar a los periodistas el descubrimiento de historias importantes. Esto es precisamente lo que quería explorar.
2. El problema que quería resolver
Durante mucho tiempo, los periodistas filipinos han dependido de los informes de la Comisión de Auditoría (COA) del gobierno para descubrir posibles casos de corrupción en las agencias gubernamentales. Los informes de auditoría suelen proporcionar pistas que los periodistas podrían investigar más a fondo para determinar si existen anomalías en el gasto de los fondos públicos.
Un ejemplo reciente fue la compra por parte del Departamento de Educación del país de computadoras portátiles por valor de 2.400 millones de pesos (134 millones de dólares) que los auditores estatales consideraron “caras” y “obsoletas” en 2021.
La información del informe de auditoría estatal fue descubierta por la reportera Llanesca T. Panti, de GMA News Online . En aquel entonces yo era editora jefe de GMA News Online. La noticia se viralizó rápidamente y la indignación pública fue inmediata . En cuestión de meses, un comité del Senado recomendó presentar cargos por corrupción y perjurio contra los funcionarios gubernamentales involucrados en la adquisición .
Panti fue la primera periodista en publicar las compras de computadoras portátiles a precios excesivos, y aunque otros medios informaron posteriormente al respecto, el asunto podría no haber llegado a la conciencia pública de no ser por su perspicacia. El resumen ejecutivo del informe de auditoría del Departamento de Educación de 2021 tenía 46 páginas, y la observación sobre las computadoras portátiles estaba oculta en la página 26. Solo un par de líneas proporcionaban detalles sobre la compra de las computadoras.
El Centro para la Libertad y Responsabilidad de los Medios , organismo de control de los medios de comunicación en Filipinas, señala que «los numerosos informes de auditoría del COA son específicos de cada agencia y pueden ser difíciles de leer y comprender». Por lo general, los periodistas y editores de cada redacción deben revisar las páginas y tratar de determinar qué información de cada informe podría ser de interés periodístico.
Debido a que los periodistas tienen una atención limitada y las salas de redacción cada vez tienen recursos más limitados, investigué si la IA podría ayudar a aumentar la capacidad de los periodistas para revisar los informes de auditoría en busca de pistas que pudieran descubrir anomalías.
3. Los problemas que encontré
Para empezar, probé el modelo GPT-4 de ChatGPT de OpenAI. Una suscripción mensual de $20 a ChatGPT Plus permite subir un documento PDF que se puede escanear y resumir.
Cuando se le pidió a la modelo que resumiera el documento (el resumen ejecutivo de un informe de la COA de la Agencia Nacional de Desarrollo Económico de Filipinas), el resultado fue una descripción del contenido del documento , que podría ser útil para un trabajo final de primaria sobre el tema, pero es prácticamente inútil para un periodista de investigación.
Preguntar a ChatGPT si el documento presenta señales de alerta ofrece una perspectiva más clara, pero muchos puntos de los resúmenes siguen siendo demasiado vagos para un periodista que busca una noticia. Por ejemplo, ChatGPT afirmó que la auditoría «encontró errores que afectan a las cuentas de activos, pasivos y patrimonio. Dichos errores pueden indicar debilidades en los procesos y sistemas contables, lo que podría dar lugar a informes financieros inexactos».
Intenté con otra pregunta: "Soy periodista de investigación. ¿Hay algún tema de interés periodístico en este informe?". De nuevo, las respuestas fueron vagas.
En este punto, un periodista probablemente se daría cuenta de que podría ser más fácil leer el informe de auditoría por sí mismo en lugar de intentar luchar con ChatGPT para encontrar el mensaje exacto que revelaría información de interés periodístico.
4. Cómo encontré una solución
En noviembre, OpenAI anunció que permitía a los usuarios crear lo que denomina GPT (agentes personalizados) sobre ChatGPT. Analicé si un GPT personalizado, con el nombre práctico de COA Beat Assistant , podría ayudar a un periodista de investigación a gestionar mejor los informes de auditoría.
Después de probar diferentes configuraciones para el COA Beat Assistant, se me ocurrieron las siguientes pautas:
1. Para intentar encontrar información relevante en el Resumen Ejecutivo de los informes de la COA, tuve que limitar la búsqueda del Asistente de Auditoría de la COA. Cada documento contiene una sección llamada "Resumen de Observaciones y Recomendaciones Significativas de Auditoría", y quería que el GPT generara un resumen de cada elemento, que sirviera como una especie de menú para el reportero.
2. Quería que el COA Beat Assistant utilizara solo la información que se encontraba en el corpus del documento y no incluyera nada fuera de ese documento, como por ejemplo datos de entrenamiento anteriores.
3. Después de resumir las observaciones y recomendaciones significativas de auditoría, quería que el GPT guiara al usuario con indicaciones para los siguientes pasos.
4. Después de cargar el informe, quería que el Asistente de Auditoría de COA no respondiera inmediatamente. En su lugar, quería preguntar al usuario si quería resumir las Observaciones y Recomendaciones Significativas de Auditoría. La razón técnica es que el límite de tokens de ChatGPT contabiliza tanto la entrada como la salida de la misma solicitud. Esto significa que, si se carga un documento de 46 páginas para el GPT, podría no tener suficiente espacio para generar una respuesta útil.
Teniendo en cuenta esto, terminé dándole a COA Beat Assistant las siguientes instrucciones:
Tras cargar un informe de auditoría, el Asistente de COA Beat procesará el informe, que contiene una lista de Observaciones de Auditoría Significativas. No resumirá el informe todavía. En su lugar, preguntará al usuario si desea un resumen de todas las observaciones en una sola frase, seguido del Número de Observación. Tras mostrar el resumen de observaciones, le ofrecerá al usuario las posibles opciones. Utilizará únicamente la información de este documento y no utilizará datos de entrenamiento previos.
5. Cómo probé esta herramienta
Intenté usar el Asistente COA Beat con el Resumen Ejecutivo del Informe COA de 2021 para el Departamento de Educación, el mismo informe que contiene el artículo sobre las laptops con precios excesivos. Después de cargar el documento, me preguntó si quería un resumen de observaciones, a lo que respondí que sí.
Regresó con un resumen de las observaciones. Fue útil, aunque incompleto y plagado de errores de formato. Por ejemplo, no incluía todos los números de las observaciones en su resumen:
Pero la información generada sería inmediatamente útil para cualquier periodista que buscara pistas. Como mínimo, incluía los problemas relacionados con los sobreprecios y los presupuestos, incluyendo los de las computadoras portátiles de los profesores. Al preguntarle al Asistente de la Sección de la COA sobre la Observación 4, obtuve la siguiente conclusión:
También le pregunté sobre la Observación 5, utilización defectuosa del presupuesto:
En cada uno de estos puntos, debería haber suficientes pistas para que un periodista de investigación decida si debe profundizar en el informe para una posible historia. El Asistente de la Sección de Asuntos de la COA ya había cumplido su misión. Pero, por supuesto, yo ya sabía lo que buscaba con el informe de auditoría del Departamento de Educación de 2021. Probé la herramienta con informes sobre otras agencias gubernamentales que no había leído antes:
- Ministerio de agricultura
- Departamento de Turismo
- Gobierno provincial de Cebú
- Gobierno provincial de Pampanga
- Gobierno de la ciudad de Quezón
En cada uno de estos casos, el asistente resumió correctamente las observaciones de auditoría del COA y sugirió al usuario qué elementos deseaba respuestas más detalladas. En mi opinión, esta herramienta ya era muy útil para realizar una tarea intensiva.
El Asistente de COA Beat funcionó mejor con documentos más pequeños. Curiosamente, en algunos de ellos, el bot ignoró por completo mi instrucción de no publicar un resumen y respondió con resúmenes. (Al menos, los resúmenes eran precisos).
En total, dediqué unas 16 horas a personalizar COA Beat Assistant, probando diferentes conjuntos de instrucciones y avisos, hasta que finalmente logró que se comportara de forma similar a la que deseaba. Dado que se publican docenas de informes de auditoría cada año y que revisar cada uno normalmente llevaría al menos una o dos horas, este tipo de inversión inicial podría ahorrar mucho tiempo a largo plazo.
6. Cómo funciona la herramienta en la práctica
Quería comprobar la utilidad de COA Beat Assistant para los periodistas que trabajan en informes de auditoría. Le di acceso a la herramienta a mi colega Panti. Ella fue la periodista que descubrió el problema del portátil demasiado caro. Quería ver si la herramienta le sería útil.
Tras unas horas de prueba, se hizo evidente cuánto le facilitaría la vida a alguien como ella. Al trabajar con informes de COA, Panti comenta que uno de los mayores problemas era conseguir que el lector de PDF de su portátil funcionara correctamente con los documentos, que siempre venían con un formato diferente según el auditor que elaboraba el informe. Los resúmenes que ofrece COA Beat Assistant son útiles a primera vista, ya que le dan a una periodista experimentada como ella una buena idea de si dedicar más tiempo a una agencia en particular o pasar a otro informe que pudiera aportar algo más relevante.
Sin mi ayuda, Panti también descubrió otros usos para el Asistente de Seguimiento de la COA. Como conocía la estructura del informe completo de la COA, extraía información de las viñetas generadas por el Asistente de Seguimiento de la COA del resumen ejecutivo y la dejaba guiar por sus pasos a seguir. Luego, añadía otros documentos del informe completo donde pudiera encontrar información adicional para obtener más información. En una ocasión, intentó incorporar los documentos de Observaciones ampliados. En otra ocasión, lo alimentó con un Anexo que contenía notas de los auditores, donde podrían estar ocultos detalles más importantes.
Debido a problemas como estos y a su preocupación por la IA generativa, Panti no se ve confiando únicamente en las ideas y resúmenes generados por el Asistente de COA Beat al momento de escribir su artículo. En cambio, solo los usa para encontrar las secciones que serían el punto de partida lógico para su informe. Después, seguiría profundizando en el documento. Tampoco confiaría en un bot para que la ayudara a escribir el artículo, prefiriendo hacerlo todo desde cero a la antigua usanza.
Presenté la herramienta en un taller para periodistas organizado por el Centro Filipino de Periodismo de Investigación (PCIJ) . Sheila Coronel , directora del Centro Toni Stabile de Periodismo de Investigación de la Escuela de Periodismo de Columbia y directora ejecutiva fundadora del PCIJ, probó la herramienta en los informes de auditoría de las provincias de Mindanao, en el sur de Filipinas, algunas de las cuales se encuentran entre las zonas más pobres del país. Inmediatamente, notó un artículo sobre los millones de pesos que una zona estaba gastando en Género y Desarrollo y lo marcó como una posible noticia de investigación.
7. Cómo se puede mejorar la herramienta.
La herramienta tiene sus defectos. Además de los problemas de formato que mencioné, Panti encontró deficiencias en el procesamiento de documentos por parte del Asistente de COA Beat. En una ocasión, notó que la cifra que devolvía el GPT personalizado no parecía del todo correcta. Resultó que el bot devolvía esa cifra de la primera columna de un informe financiero, en lugar del total de la columna más a la derecha.
Nuestra versión GPT personalizada suele tener dificultades con documentos grandes. Además, ChatGPT 4 aún tiene restricciones que limitan su uso intensivo; incluso los usuarios de pago tienen un límite de consultas por periodo.
Actualmente, la aplicación de la herramienta es bastante limitada. En el taller del PCIJ, los periodistas preguntaron si podría funcionar con informes de auditoría de varias agencias del mismo año o con informes de auditoría de la misma agencia a lo largo de varios años.
Las pruebas iniciales indican que los archivos GPT personalizados no pueden gestionar varios documentos con la misma eficacia. Quizás sería útil un paso de preprocesamiento (es decir, extraer texto de los PDF y convertirlo en un solo documento) y debería explorarse.
8. Cómo puede esto ayudar a otras salas de redacción.
El Asistente de Coordinación de COA es un práctico ahorro de tiempo. Panti estima que podría reducir el tiempo que dedica a un reportaje hasta en un 80 %. Como también cubre la sección de la Cámara de Representantes para GMA News Online, considera que una herramienta como esta es útil para periodistas que realizan muchas tareas a la vez. "Podría supervisar una audiencia de un comité mientras envío informes de auditoría al Asistente de Coordinación de COA y luego profundizar en ellos si hay algo que pueda ser de interés periodístico", me comentó.
La introducción de GPT personalizadas supone un cambio radical para las redacciones, ya que permite a los gestores y desarrolladores de noticias limitar el alcance de trabajo del bot: no necesita pensar críticamente, solo encontrar la información correcta y resumirla. Esto facilita el desarrollo de nuevas aplicaciones GPT personalizadas para realizar su trabajo dentro de los parámetros y límites establecidos por la redacción. También es impresionante la rapidez con la que se desarrolla e implementa una herramienta útil para un propósito específico. Anteriormente, era necesario realizar un costoso e intensivo entrenamiento de aprendizaje automático para implementar una aplicación similar, e incluso así, la herramienta podría no ser tan eficaz.
Además de los informes de auditoría, se podrían desarrollar herramientas similares para ayudar a las redacciones y a los periodistas a gestionar estados financieros e informes anuales de empresas; documentos legales, como sentencias judiciales y expedientes judiciales; informes de evaluación de impacto ambiental; documentos de políticas públicas y textos legislativos; documentos de compras y contrataciones; y muchos otros tipos de documentos. Se podrían crear GPT personalizados para todo tipo de corpus documentales para facilitar la labor de los periodistas de investigación.
9. ¿Qué sigue para el proyecto?
La tarifa mensual de $20 para usar ChatGPT Plus es baja. Sin embargo, para algunas redacciones en el Sur Global, aún puede resultar prohibitivo obtener una cuenta de ChatGPT Plus para todos sus reporteros, incluso con esa baja tarifa mensual. Para la investigación de documentos, los periodistas pueden usar herramientas gratuitas como Perplexity.AI o Copilot en el navegador Microsoft Edge. Sin embargo, a diferencia de las GPT personalizadas, estas no permiten restricciones para una mejor gestión de los documentos.
Las salas de redacción del Sur Global podrían explorar soluciones gratuitas equivalentes, incluido el uso de modelos de lenguaje de código abierto para ayudar en el procesamiento de documentos, aunque esto podría implicar mucho más trabajo de codificación.
Comentarios