Los algoritmos de caja negra se refieren a los sistemas de Inteligencia Artificial (IA) para los cuales sus procesos internos son invisibles para el usuario. Se les puede alimentar con datos de entrada y recibir como salida resultados, pero no se puede examinar el código del sistema ni la lógica que generó esta salida. El aprendizaje automático es el subconjunto dominante de la Inteligencia Artificial. Esto subyace a sistemas de IA generativa como ChatGPT y DALL-E 2. El aprendizaje automático consiste en tres componentes: un algoritmo o conjunto de algoritmos, datos de entrenamiento y un modelo. Un algoritmo es un conjunto de procedimientos. En el aprendizaje automático, un algoritmo aprende a identificar patrones tras el entrenamiento con un gran conjunto de ejemplos, los datos de entrenamiento.
Una vez entrenado el algoritmo de aprendizaje automático, se obtiene un modelo de aprendizaje. Esta es la herramienta que se utiliza por las personas. En ciencias, computación e ingeniería, una caja negra es un sistema que puede ser visto desde el punto de vista de sus entradas y salidas (o características de transferencia), sin ningún conocimiento de su funcionamiento interno. Su implementación es “opaca” (negra).
El término se puede usar para referirse a muchos trabajos internos, como los de un transistor, un motor, un algoritmo, el cerebro humano o una institución o gobierno. El uso más preocupante de los algoritmos en materia de políticas son los algoritmos de caja negra, aquellos cuyas entradas y procesos están ocultos al público. Esto puede deberse a que se consideran información de propiedad privada, como los factores subyacentes del sistema Compas usado en EE. UU. para medir la probabilidad de reincidencia de delitos; los cuales no están disponibles al público por tratarse de información de propiedad de una empresa.
Los algoritmos pueden influir en tus decisiones, pero el juicio es uno que debe hacerse por los políticos, y por tanto, indirectamente, por los votantes. Sin embargo, gracias a leyes de propiedad intelectual como la ley de derechos de autor y patentes, a los seres humanos les es imposible comprender el funcionamiento interno de estos algoritmos de caja negra, lo cual puede conllevar a discriminación. Además, los activistas de datos creen que como estos algoritmos se alimentan con nuestras propias datos personales, es nuestro derecho saber qué hace con ellos.