Generación de números aleatorios
Marcos García González (h[e]rtz)
Date: Verano 2004
Documento facilitado por la realización de la asignatura Métodos informáticos de la física de segundo curso en la universidad autónoma de Barcelona en el transcurso del año 2003-2004.
Un problema básico que nos encontramos habitualmente es el de obtener secuencias de números uniformemente distribuidos en un intervalo
.
La diferentes posibilidades para resolver dicho problema son:
i) Buscar en tablas de números aleatorios publicadas (libros, internet ...);
ii) Observar un proceso físico tal como la desintegración radiactiva, el ruido eléctrico ...;
iii) Los lenguajes de programación y las hojas electrónicas incluyen una función para generarlos
iv) Mediante algorismos de generación de números aleatorios
Las principales ventajas de los generadores de números aleatorios son:
- Rapidez
- Comodidad
- Reproducibilidad
- Portabilidad
Y la desventaja fundamental:
- Las secuencias obtenidas no son realmente aleatorias, ya que se obtienen con operaciones deterministas. Solo podemos obtener secuencias pseudo-aleatorias, que a su vez satisfacen algunos criterios de aleatoriedad adecuados.
Los números generados deben cumplir ciertas características para que sean válidos. Dichas características son:
1. Uniformemente distribuidos.
2. Estadísticamente independientes.
3. Su media debe ser estadísticamente igual a 1/2.
4. Su varianza debe ser estadísticamente igual a 1/12.
5. Su periodo o ciclo de vida debe ser largo.
6. Deben ser generados a través de un método rápido.
7. Generados a través de un método que no requiera mucha capacidad de almacenamiento de la computadora.
Normalmente se utilizan números enteros, ya que su aritmética es exacta y rápida. Se generan enteros
entre 0
y
, y
da valores reales en el intervarlo
.
En general los algoritmos utilizan relaciones de recurrencia del tipo
en el caso de recurrencia simple, o bien
para el caso de una recurrencia de orden
.
Se necesitará dar un
valor inicial para comenzar el algoritmo (
valores para recurrencias de orden
).
Estos generadores son los más utilizados y los más conocidos. Se basan en la relación de recurrencia
donde
es el multiplicador y
el módulo.
- Hay
valores posibles de
, entre 0 i
.
- La secuencia es
periodica: cuando vuelve a aparecer un número por segunda vez, la secuencia se vuelve a repetir. El periodo depende de los valores de
,
y
, así como del valor inicial; nótese que el máximo posible es
.
Recordemos que lo que nos interesa para trabajar con un buen generador de números aleatorios es que la distribución de los números obtenidos tiene que ser uniforme, no deben de haber correlaciones entre los terminos de la secuencia, el periodo debe ser lo más largo posible, y el algorismo debe ser de ejecución rápida.
Las limitaciones más importantes de los generadores son su periocidad (normalmente el periodo no suele ser más grande de
y la posible presencia de correlaciones entre términos consecutivos de la secuencia. Una manera sencilla de suprimir éstas limitaciones es
desordenar
un poco la secuencia mediante el siguiente procedimiento:
Se parte de un generador que da enteros aleatorios entre
0
y
, y en primer lugar se genera con el GCL un vector que contiene una lista de
enteros aleatorios
, así como un entero aleatorio
. Se determina el índice
, entre
0
y
.
El elemento
de la lista se da como un nuevo nombre aleatorio, y se reasigna a la variable
el valor
. El valor de
se renueva con el GCL, y se vuelve a repetir los pasos desde la determinación del índice
.
En estos generadores cada nuevo número entero aleatorio
, se obtiene manipulando los bits del número anterior,
. En lenguaje C, esto se puede hacer facilmente utilizando operadores sobre bits,
.
Las grandes ventajas de estos generadores es que son generadores muy rápidos que tienen un periodo muy largo. La fomentación teorica en la que se basan es diferente a la de los GCL. Los generadores de Fibonacci se basan en una recurrencia del tipo
donde
son enteros dados y
denota alguna de las operaciones
.
Este tipo de generador precisa iniciar (con otro generador) y mantener una lista de los últimos
números generados.
Otros tipos de generadores los podemos encontrar en:
- W.H. Press, S.A. Teukolski, W.T. Vetterling i B.P. Flannery,
Numerical Recipes in C, Cambridge University Press.
-D.E. Knuth,
The Art of computing programming, 2: Seminumerical Algorithms, Addison-Wesley.
Antes de aceptar un nuevo generador hace falta verificar que satisface una série de pruebas, lo que llamaremos
pruebas de aleatoriedad.
Éstas consisten basicamente en realizar dos tipos de pruebas, empíricas y teoricas. Si los generadores superan estas pruebas, podremos asegurar que estamos ante un generador de números aleatorios bastante competente.
Pruebas empíricas (sobre la muestra de la secuencia)
- Test de uniformidad: hace falta que los valores esten uniformemente distribuidos en
. Se puede realizar un test
. Alternativamente, podemos estimar los momentos de orden
y comprobar que se aproximan a sus correspondientes valores teoricos,
.
- Test serial: se generan parejas de valores
, y se comprueba si se distribuyen uniformemente en el cuadrado
.
- Test de correlaciones: se determina la correlación entre números separados
lugares en la secuencia,
. Su valor tendría que acercarse a 1/4.
Pruebas teoricas (sobre toda la secuencia): La sencillez de los generadores de congruencia lineal permiten demostrar propiedades importantes:
- Para determinar valores de
i
se obtienen secuencias de periodo máximo
. Por ejemplo, si
es una potencia de 2, bastará con que
sea impar y
sea igual a un múltiple de 4 mas 1.
- Test espectral: si se forman vectores con
valores consecutivos,
estos forman hiperplanos paralelos en el espacio k-dimensional. La separación
entre los planos tiene que ser la mínima posible.
El problema a tratar será el de obtener una secuencia con densidad de probabilidad dada
, definida en el intervalo
a partir de una secuencia de números con distribución uniforme
.
Para resolver este problema utilizaremos el
método del cambio de variable. Que concretamente consistirá en buscar una transformación
para obtener la distribución deseada. Si la densidad de probabilidad de
es
, tenemos:
Si
la integración de esta ecuación resulta ser
Si sabemos calcular la integral, obtenemos una relación del tipo
, que se tiene que invertir para poder obtener
Distribución exponencial.
Para obtener
con distribución
|
(1) |
entonces nos queda la ecuación
por lo tanto, el cambio adecuado será
Distribución normal. Para obtener
, nos queda la siguiente ecuación
La integral no se puede resolver analíticamente, y menos aun invertir la relación para obtener
.
La alternativa es aplicar el
algoritmo de Box-Muller. Que permite obtener 2 valores independientes
,
con distribución
si
son las coordenadas de un punto del plano, la densidad de probabilidad de sus coordenadas polares es
Por lo tanto,
i
tiene la densidad de probabilidad
. Se pueden obtener a partir de 2 números
con las transformaciones
. Por lo tanto
se pueden obtener con las transformaciones
|
(2) |
Método de aceptación-rechazo: Es un método sencillo y general, aunque en ocasiones no muy eficiente.
Sea
definida en un intervalo finito,
, y
una cota superior de
. Se generan dos valores aleatorios
y
Entonces:
|
(3) |
De esta manera el valor
aparece con una densidad de probabilidad
, aunque no se aprovechan todos los valores que obtenemos en la realización del método. De todos modos, este es el único método disponible cuando la distribución de probabilidades es complicada. De hecho es la base del
algoritmo de Metropolis, posiblemente el más utilizado en física computacional.
DoFinal(); ?>