Conjunto de datos

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en algunos países hispanohablantes) es una colección de datos habitualmente tabulada.

Un conjunto de datos contiene los valores para cada una de las variables, como por ejemplo la altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos. Cada uno de estos valores se conoce con el nombre de dato. El conjunto de datos puede incluir datos para uno o más miembros en función de su número de filas.

Conjuntos de datos tan grandes que aplicaciones tradicionales de procesamiento de datos no los pueden tratar se llaman big data.[1]

Método científico[editar]

La publicación de los conjuntos de datos usados en un experimento son clave para su reproducibilidad, y cada vez son más las leyes públicas y normas de revistas científicas que obligan a hacerlos públicos, para evitar sesgos.

Propiedades[editar]

Según el estudio, es un factor clave de las propiedades del conjunto: dispersión, curtosis, etc.[2]​ Los valores pueden ser números, como números reales o enteros, por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos), por ejemplo, que representan la etnia de una persona. De manera más general, los valores pueden ser de cualquiera de los tipos descritos como nivel de medición.[3]

Para cada variable, los valores son normalmente todos del mismo tipo. Sin embargo, también pueden faltar valores, que deben indicarse de alguna manera.

En estadística, los conjuntos de datos generalmente provienen de observaciones reales obtenidas al muestrear una población estadística, y cada fila corresponde a las observaciones de un elemento de esa población. Además, se pueden generar conjuntos de datos mediante algoritmos con el fin de probar ciertos tipos de software. Algunos software de análisis estadístico moderno, como SPSS, todavía presentan sus datos en la forma clásica de conjuntos de datos. Si faltan datos o son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos.

Véase también[editar]

Referencias[editar]

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1-5. 
  2. Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1. 
  3. Frank Kane (2017). Taming Big Data with Apache Spark and Python. Packt. ISBN 978-1787287945. 

Enlaces externos[editar]