Contexto

El Servidor de Informes Técnicos de la NASA (NTRS) incluye cientos de miles de artículos que contienen información científica y técnica (STI) que fueron creados o financiados por la NASA. Desde el 1 de junio de 2022, un total de 381,547 de estos documentos incluyen una etiqueta del sistema de gestión de datos de la organización (CDMS). Muchos de estos documentos con una etiqueta CDMS fueron escaneados y se aplicó el reconocimiento óptico de caracteres (OCR) para producir archivos de formato de datos portátil (PDF). Los registros NTRS de estos documentos PDF contienen un resumen y una categoría temática. Para permitir la búsqueda en esta gran base de datos NTRS, los usuarios potenciales, como los miembros de las comunidades de investigación científica e histórica, podrían utilizar una aplicación que pueda leer una colección de archivos PDF, resumir esos archivos, producir informes estadísticos del uso del lenguaje y enumerar las palabras clave del tema. Los futuros investigadores podrían utilizar esta información para encontrar los datos históricos deseados de forma rápida y sencilla.

Objetivo

Tu reto es desarrollar una aplicación de IA para mejorar la accesibilidad y la capacidad de descubrimiento de los registros en la NTRS. Por ejemplo, podrías utilizar el Procesamiento del Lenguaje Natural (PLN) para leer automáticamente los documentos de la SRNT, resumirlos, generar datos de análisis de texto y producir una lista de palabras clave temáticas para ayudar a los investigadores a encontrar los documentos que necesitan. Piensa en qué tipo de información necesitarán los futuros investigadores para localizar los documentos deseados. ¿Cuáles serían los mejores datos para ayudarles en su búsqueda de información relevante?

Consideraciones potenciales

A medida que desarrolles tu proyecto, puedes, pero no estás obligado a realizar los siguientes pasos:

Puedes, pero no estás obligado, a tener en cuenta lo siguiente cuando desarrolles tu aplicación: