lunes, 20 de octubre de 2014

La Web y el Principio del Mínimo Esfuerzo

"... una persona resolverá sus problemas de manera de minimizar el trabajo total que debe realizar 
para resolver al mismo tiempo sus problemas inmediatos y sus probables problemas futuros."
George K. Zipf, Human Behavior and the Principle of Least Effort, 1949.


El principio del mínimo esfuerzo, enunciado en la obra de G. Zipf, permite explicar muchos resultados del comportamiento humano, y por ende se ha llamado la Ley de Zipf. Este mes exploramos esta ley empírica y su relación con la Web.

El Principio del Mínimo Esfuerzo

George Kipling Zipf era un lingüista de Harvard y publicó su libro un año antes de su deceso, a la prematura edad de 40 años. El descubrimiento inicial de Zipf fue que si uno contaba el número de veces que se usaba cada palabra en distintos textos en inglés, y las ordenaba de más frecuente a menos frecuente, se cumplía que la frecuencia de la palabra i-esima, multiplicada pori, era igual a una constante C, y la constante C dependía del texto escogido. Actualmente, es necesario elevar a un exponente t mayor que 1 para muchos textos existentes, en particular de la Web. Graficando esta curva usando una escala logarítmica en ambos ejes, ella se convierte en una recta con pendiente negativa t.
Zipf prefirió explicar estos resultados empíricos como una condición humana, donde siempre es más fácil escribir una palabra conocida que usar una menos conocida. Fenómenos similares aparecen en otros ámbitos como el número de citas bibliográficas a un artículo dado o las poblaciones de ciudades. Diversos autores, entre ellos Mandelbrot y Miller, argumentaron más tarde que en realidad la ley de Zipf representa la consecuencia de las leyes de las probabilidades en procesos asociados a codificación de información donde hay mucho de azar. Sin querer tomar partido en esta disputa científica, cierta o no cierta, la ley de Zipf aparece frecuentemente en la práctica y refleja bien la actitud natural de minimizar el esfuerzo, exceptuando los casos extremos, que serían en el ejemplo inicial, usar muy pocas palabras o usar muchas. Tal vez esta ley sólo explica la diversidad humana, la que se inclina más por la pereza que por la erudición. De hecho, que t sea ahora alrededor de 1.8 para textos en inglés, indica un mayor sesgo en esa diversidad, y una degradación en el tiempo de la riqueza del vocabulario que usamos al escribir.

La Web como un Proceso Humano

La Web es el producto del trabajo colaborativo de millones de personas. Si hay algún fenómeno donde el principio del mínimo esfuerzo aparecería si existiera, es la Web. Aparte de la distribución de palabras en la Web, las siguientes medidas siguen una curva de Zipf:
  • Tamaños de las páginas o de otros tipos de archivos (imágenes, audio, etc.). En este caso la ley no se ajusta bien al comienzo, porque hacer páginas con muy poco texto produce el pudor de la vergüenza que contrarresta al mínimo esfuerzo.
  • Número de enlaces que salen de una página. En este caso la curva no se ajusta muy bien en  los extremos, porque hacer una página con muy pocos enlaces cae en el caso del punto anterior, y por otra parte, hay páginas con muchos enlaces producidas en forma automática.
  • Número de enlaces que llegan a una página. La mayoría de las páginas tienen sólo un enlace a ellas y hay pocas páginas con muchos enlaces.
  • Fecha de actualización de las páginas, existen más páginas nuevas o modificadas que viejas.
  • Número de componentes conexos de distinto tamaño. Es decir, grupos de páginas en las que se puede navegar de cualquier página a otra página. Esto representa en cierta medida el número de páginas de un sitio Web:  muchos sitios tienen pocas páginas, pocos sitios muchas páginas.
  • Uso de las palabras en las consultas a un buscador (confirmado experimentalmente en TodoCL.cl). El resultado es que la mayoría de las preguntas son muy simples.
Lo anterior se propaga a otras medidas, como tráfico en la red, uso de proxies, etc. ¿Es todo esto una casualidad producto del azar o un fenómeno del comportamiento humano?. La respuesta aún no es clara, pero la evidencia empírica no deja de sorprenderme.


George Kingsley Zipf (1902-1950)
PERFIL BIOGRÁFICO Y ACADÉMICO
Lingüista norteamericano, nacido en 1902, de familia acomodada, fue profesor de la Universidad de Harvard desde finales de los años veinte.
Autor de Selective Studies and the Principle of Relative Frequency in Language (1932); Psycho-Biology of Languages (1935); Human Behavior and the Principle of Least Effort (1949).
PENSAMIENTO Y EXPRESIÓN CIENTÍFICA
Considerado un académico heterodoxo y excéntrico, comnezó estudiado la economía humana del habla, esto es, las restricciones habituales en la expresión oral cotidiana, para abordar, más tarde, el uso del vocabulario en la producción escrita. Zipf observó que dentro de un texto se puede advertir que el uso de las palabras está claramente definido, en términos estadísticos, por valores constantes. Esto es, la frecuencia con la que los vocablos aparecen en un texto están sujetan a unas relaciones matemáticas, las 'leyes de Zipf'.
Sus primeros trabajos, publicados en 1932, se basaron en análisis empíricos acerca de la regularidad con la que los términos aparecían en diversos textos. Comprobaciones que extendió a obras de diferentes autores y distintas lenguas, con resultados que venían a verificar sus hipótesis. El último trabajo de Zipf, publicado en 1949, poco antes de su prematura muerte, abordó el Ulises de James Joyce. Más preocupado por el comportamiento humano que por las matemáticas -se definió como un 'estadístico de la ecología humana'-, argumento que su constatación acerca de que las palabras más cortas eran mucho más frecuentes en su uso escrito que las largas, del mismo modo que los términos más conocidos adquirían mayor protagonismo, se entendían por la que definió como 'ley del mínimo esfuerzo'.
Zipf trató de extender la validez de su ley a otros campos en el orden de la naturaleza y de la vida, como la talla demográfica de las ciudades, la intensidad de los terremotos, etc.
La explicación de Zipf se ha desacreditado, pero no la validez de los resultados empíricos, a los que, posteriormente, se han dado otras interpretaciones, como Mandelbrot, desde los campos de la matemática y de la estadística. Hoy, se sigue aplicando su principio sobre las frecuencias estadísticas en campos complejos. Así, por ejemplo, se ha observado que la ley se cumple en la evaluación del ADN basura, aunque no en el ADN codificado.
http://www.infoamerica.org/

No hay comentarios:

Publicar un comentario