¿Puede la IA preservar nuestro legado científico?

Contexto

El Servidor de Informes Técnicos de la NASA (NTRS) incluye cientos de miles de artículos que contienen información científica y técnica (STI) que fueron creados o financiados por la NASA. Desde el 1 de junio de 2022, un total de 381,547 de estos documentos incluyen una etiqueta del sistema de gestión de datos de la organización (CDMS). Muchos de estos documentos con una etiqueta CDMS fueron escaneados y se aplicó el reconocimiento óptico de caracteres (OCR) para producir archivos de formato de datos portátil (PDF). Los registros NTRS de estos documentos PDF contienen un resumen y una categoría temática. Para permitir la búsqueda en esta gran base de datos NTRS, los usuarios potenciales, como los miembros de las comunidades de investigación científica e histórica, podrían utilizar una aplicación que pueda leer una colección de archivos PDF, resumir esos archivos, producir informes estadísticos del uso del lenguaje y enumerar las palabras clave del tema. Los futuros investigadores podrían utilizar esta información para encontrar los datos históricos deseados de forma rápida y sencilla.

Objetivo

Tu reto es desarrollar una aplicación de IA para mejorar la accesibilidad y la capacidad de descubrimiento de los registros en la NTRS. Por ejemplo, podrías utilizar el Procesamiento del Lenguaje Natural (PLN) para leer automáticamente los documentos de la SRNT, resumirlos, generar datos de análisis de texto y producir una lista de palabras clave temáticas para ayudar a los investigadores a encontrar los documentos que necesitan. Piensa en qué tipo de información necesitarán los futuros investigadores para localizar los documentos deseados. ¿Cuáles serían los mejores datos para ayudarles en su búsqueda de información relevante?

Consideraciones potenciales

A medida que desarrolles tu proyecto, puedes, pero no estás obligado a realizar los siguientes pasos:

Construir un corpus: Un corpus es un conjunto de trabajos o una colección de documentos. Para construir un corpus de prueba, puede navegar por la página de inicio de la NTRS y hacer clic en el botón Iniciar búsqueda bajo Contenido disponible públicamente. Si el formulario de filtro no aparece automáticamente en la parte izquierda de la página, busque el icono del botón "hamburguesa" (es una pila de tres líneas horizontales cortas). Haga clic en el botón "hamburguesa" para abrir el formulario de filtro. En la lista desplegable Centro, seleccione CDMS heredado. Revise varios de los archivos para comprobar que se trata de archivos PDF con capacidad de búsqueda y descárguelos para crear un corpus. Los equipos participantes que decidan construir consultas pueden utilizar la NTRS OpenAPI (véase la sección de Recursos para el enlace y la documentación de OpenAPI) para desarrollar un corpus.
Investigar y seleccionar bibliotecas de código abierto y ejemplos (por ejemplo, NLP): Desarrollar una aplicación de IA que pueda abrir y leer una colección de archivos PDF en una carpeta (es decir, su corpus) y generar un informe de información relevante. Las características deseables del informe pueden incluir, entre otras, un resumen de cada documento y una lista de palabras clave temáticas encontradas en cada documento, incluyendo la frecuencia con la que aparecen esas palabras clave. La Guía de Ámbito y Categoría Temática de la NASA (consulte la pestaña Recursos en la parte superior de la página) contiene una lista de posibles palabras clave del tema.
Demuestra tu aplicación NLP: Genera informes y publícalos donde los jueces puedan acceder a ellos (por ejemplo, en tu página de proyectos de Space Apps). Considera la posibilidad de incluir una lista de los documentos o enlaces a los registros NTRS que tu aplicación ha analizado y un enlace al repositorio donde se almacena tu código. Si produces una aplicación web, también puedes proporcionar un enlace a la misma.

Puedes, pero no estás obligado, a tener en cuenta lo siguiente cuando desarrolles tu aplicación:

Los productos nocionales de este desafío también pueden incluir el código fuente de lenguajes interpretados como Python, R o JavaScript.
Los jueces de Space Apps no pueden descargar y ejecutar programas desde un sitio externo; si tu equipo desarrolla una aplicación web, considera la posibilidad de alojarla en un servidor gratuito. Para localizar un servicio de este tipo, puedes utilizar tu motor de búsqueda favorito para buscar en términos clave como repositorios de código, plataforma en la nube, alojamiento gratuito y sitios de alojamiento web gratuitos.
Si desarrollas una aplicación de escritorio, considera proporcionar información y documentación sobre cómo obtener y utilizar tu aplicación.
Considera utilizar tu motor de búsqueda favorito para buscar bibliotecas de código abierto gratuitas que puedas emplear. Las palabras clave que le ayudarán en su búsqueda son:
- Free open source Natural Language Processing.
- Text-analytics.
- Python NLP.
- NLP.
- NLP software.
- NLP libraries.
- NLP tools.