Artículo Académico / Academic Paper

Recibido: 04-04-2021, Aprobado tras revisión: 23-07-2021

Forma sugerida de citación: Gallo, A.; Pérez, F.; Salinas, D. (2021). “Minería de Datos y Proyección a Corto Plazo de la Demanda

de Potencia en el Sistema Eléctrico Ecuatoriano”. Revista Técnica “energía”. No. 18, Issue I, Pp. 72-85

ISSN On-line: 2602-8492 - ISSN Impreso: 1390-5074

Data Mining and Short-Term Power Demand Forecasting in the Ecuadorian

Electric System

Minería de Datos y Proyección a Corto Plazo de la Demanda de Potencia en el

Sistema Eléctrico Ecuatoriano

A.O. Gallo

F.E. Peréz

D.A. Salinas

Escuela Politécnica Nacional, Ecuador

E-mail: angel.gallo@epn.edu.ec; fabian.perez@epn.edu.ec

Agencia de Regulación y Control de Recursos Naturales No Renovables, Ecuador

E-mail: diego.salinas@controlrecursosyenergia.gob.ec

Abstract

This article presents a computational tool developed

in the Python programming language for data

mining and short-term load forecasting of the

National Interconnected System (SNI), using the

predictive approach of the Light Gradient Boosting

Machine (LGBM), Random Forest, Decision Tree

machine learning algorithms, and the statistical

algorithm for time series ARIMA. The

implementation of the Hyperopt and Grid Search

functions to define the main hyperparameters of the

machine learning algorithms and the parameters p,

d, q of the ARIMA algorithm respectively, together

with the application of feature engineering allow the

algorithms to be properly adjusted and modeled. for

the data series. The procedure for data mining and

load forecasting shows the reliability and versatility

of using the computational tool, obtaining relevant

results, such as the reduction of anomalies in the

data series to improve the precision in the projected

electrical demand curves.

Resumen

En este artículo se presenta una herramienta

computacional elaborada en lenguaje de

programación Python para minería de datos y

proyección a corto plazo de la demanda de potencia

eléctrica del Sistema Nacional Interconectado (SNI),

utilizando el enfoque predictivo de los algoritmos de

aprendizaje automático Light Gradient Boosting

Machine (LGBM), Random Forest, Decision Tree, y

el algoritmo estadístico para series de tiempo

ARIMA. La implementación de las funciones

Hyperopt y Búsqueda de Cuadrícula para definir los

principales hiperparámetros de los algoritmos de

aprendizaje automático y los parámetros p, d, q del

algoritmo ARIMA respectivamente, junto con la

aplicación de la ingeniería de características

permiten ajustar y modelar adecuadamente los

algoritmos para las series de datos. El procedimiento

para minería de datos y proyección de demanda

muestra la confiabilidad y versatilidad de utilizar la

herramienta computacional obteniendo resultados

relevantes, como la disminución de anomalías en las

series de datos para mejorar la precisión en las

curvas de demanda eléctrica proyectadas.

Index terms Machine learning, Data mining,

Electrical Power, Short-term load forecasting,

National Interconnected System.

Palabras clave Aprendizaje Automático, Minería

de datos, Potencia Eléctrica, Proyección de demanda

a corto plazo, Sistema Nacional Interconectado.

Edición No. 18, Issue I, Julio 2021

1. INTRODUCCIÓN

El pronóstico de demanda eléctrica es el insumo

principal para una adecuada operación y expansión del

sector eléctrico ecuatoriano; además, es el primer paso

crucial para cualquier estudio de planificación. Algunas

aplicaciones del pronóstico de la demanda son: abastecer

el balance de generación-demanda, planificar la

operación del sistema, elaborar planes de expansión. Por

tales razones, es de sumo interés que los resultados de los

estudios de proyección de demanda sean los más precisos

posibles.

Se entiende que una proyección de demanda a corto

plazo, utilizada para estudios de operación, es

significativamente diferente del largo plazo utilizada en

estudios de planificación. En la proyección de demanda

a corto plazo, por ejemplo, de la próxima semana, se

predice la demanda para cada hora de la próxima semana.

En este contexto, la proyección de demanda a corto plazo

es un estudio eléctrico importante para la planificación y

operación del Sistema Nacional Interconectado (SNI).

Una mala planificación puede traer consigo una mala

programación del abastecimiento de la demanda horaria

de potencia eléctrica; provocando pérdidas al requerir

unidades de generación más costosas para suplir la

demanda.

Sin embargo, en bases de datos históricas robustas

(demanda de potencia horaria) la presencia de datos

faltantes y la presencia de desviaciones atípicas

“outliers” en las series de datos, es un factor clave de

análisis previo a la elaboración de cualquier proyección,

ya que afectan directamente a la calidad y precisión de

los diferentes métodos de predicción. Los

procedimientos más frecuentes para tratar problemas de

datos faltantes y valores atípicos han sido la eliminación

o la sustitución/imputación de estos por valores como la

media de la variable, siendo procedimientos clásicos que

en general presentan inconvenientes y carencias [1].

El aprendizaje automático como un subcampo de la

inteligencia artificial ha introducido una gran variedad de

técnicas aplicadas en el campo de estudios de proyección

a corto plazo del consumo de electricidad, mostrando un

mejor rendimiento que las técnicas tradicionales como el

algoritmo ARIMA para series de tiempo [2]. Por

ejemplo, en estudios como [2], [3] se utiliza el algoritmo

ARIMA para validar la aplicación de algoritmos de

inteligencia artificial para la proyección de demanda a

corto plazo, así mismo en [4], [5] se propone el uso de

varios algoritmos computacionales para realizar tareas de

proyección de demanda y al comparar sus resultados

mediante indicadores de error se infiere que algoritmo

tiene un mejor rendimiento. No obstante, no se presenta

a detalle el ajuste y calibración de los algoritmos de

aprendizaje automático para las series de datos, el ajuste

adecuado de un algoritmo predictivo es uno de los

principales objetivos y desafíos en el proceso de

aprendizaje automático, ya que permite mejorar el

rendimiento de las proyecciones realizadas. Además, se

presentan metodologías para la detección de valores

atípicos que no indican un procedimiento claro y eficaz

para tratar con anomalías presentes en las series de datos.

Sobre la base de lo mencionado, se ha propuesto un

procedimiento para minería de datos y proyección a corto

plazo de demanda horaria de potencia eléctrica

incorporado en dos módulos ejecutables

computacionales desarrollados en lenguaje de

programación Python. El módulo de minería de datos

tiene como objetivo identificar y mitigar desviaciones y

comportamientos anómalos en los datos de estudio.

Esclarecer dichos comportamientos permite contar con

bases de datos completas y confiables, que permiten la

adecuada calibración de cada algoritmo mediante la

implementación de funciones de autoajuste para

disminuir el error en los resultados del módulo de

proyección de demanda eléctrica.

2. MARCO TEÓRICO

2.1. Modelos de proyección

Los modelos de proyección se clasifican en dos

grandes grupos [6] que se describen en las secciones

2.1.1 y 2.1.2.

2.1.1 Técnicas basadas en inteligencia artificial (IA)

Las técnicas basadas en inteligencia artificial

incluyen métodos de aprendizaje automático, como redes

neuronales artificiales, árboles de decisión, bosques

aleatorios, máquina de vector soporte, y entre otros que

han tenido un éxito notable cuando se trata de sistemas

de potencia.

2.1.2 Enfoques estadísticos

Son modelos paramétricos convencionales para

análisis de series de tiempo estocásticas, tales como

regresión lineal, suavizado exponencial, y el modelo

Autorregresivo Integrado de Media Móvil (ARIMA) [6],

[7].

Modelo Autorregresivo Integrado de Media Móvil

El modelo está compuesto por tres partes, un modelo

de auto regresión (AR) donde hay una combinación de

valores pasados; un componente de promedio móvil

(MA), que utiliza errores de proyecciones pasadas en un

modelo similar a la regresión; y una integración (I) [2].

Un modelo ARIMA no estacional se lo denomina un

modelo “ARIMA (p, d, q)”, donde:

 p: Es el número de términos autorregresivos.

 d: Es el número de diferencias no estacionales

necesarias para que la serie se vuelva estacional.

 q: Es el número de errores de pronóstico en retraso

en la ecuación de predicción.

Con los parámetros p, d, q establecidos y si se

considera una serie temporal estacional para simplificar

Gallo et al. / Minería de Datos y Proyección a Corto Plazo de la Demanda de Potencia en el SNI

las cosas, con d=0, la ecuación se puede escribir como:





 



 



 



 



 



 



 



(1)





 



 



 



 







 



Donde 



, 



..



, son los coeficientes

autorregresivos. Los retrasos asociados son 



, 



hasta

el grado de polinomio autorregresivo p. Y 



,



..



son

los coeficientes de promedio móvil. Los retrasos

asociados son 



,



.. hasta el grado del polinomio de

promedio móvil q.

El algoritmo ARIMA se encuentra disponible en la

biblioteca “statsmodels” de Python, y puede ser

modelado y ajustado para problemas de predicción de

demanda de potencia eléctrica.

2.1.3 Evaluación de la precisión en la proyección

A medida que hay más algoritmos de pronóstico

disponibles, es cada vez más importante evaluar que tan

cerca están los resultados de proyección de los valores

reales. El Porcentaje de Error Medio Absoluto (MAPE,

por sus siglas en inglés), es un indicador de precisión y

rendimiento de la proyección de demanda que mide el

tamaño del error absoluto en términos porcentuales.

Dicha métrica es implementada para medir la calidad de

los resultados de proyección del presente estudio debido

a que es un indicador fácil de interpretar y evaluar.

Error porcentual medio absoluto (MAPE)

El Error Porcentual Medio Absoluto (Mean Absolute

Percentage Error) es el porcentaje de error promedio en

un conjunto de valores proyectados. Varía desde cero en

adelante, y un valor más bajo indica un mejor modelo [8].

Se describe matemáticamente como:

 







󰇻















󰇻





(2)

Donde:





: Es el valor real por pronosticar







: Es el valor pronosticado

n: E el número de datos pronosticados o evaluados

2.2. Anomalías en series de tiempo de demanda

eléctrica

En el análisis de series de tiempo, es un requerimiento

fundamental detectar valores faltantes y valores atípicos.

Esto debido a que, mientras más escasos sean los datos,

más difícil será crear un pronóstico preciso [6].

A continuación, se presentan tres alternativas para

tratar anomalías en las series de tiempo.

 Sustituir valores atípicos con un promedio de

valores vecinos.

 Pronosticar los valores con un método predictivo.

 Eliminar las observaciones.

Debido al enfoque predictivo de los algoritmos de

aprendizaje automático se determinó que, el reemplazo

de anomalías por un valor proyectado más probable es la

mejor opción para el desarrollo de este estudio.

2.3. Aprendizaje automático

La tarea principal del aprendizaje automático es

modelar algoritmos que sean capaces de aprender de

datos históricos y realizar predicciones sobre nuevos

datos de entrada [9].

De manera general en la Fig. 1 se presenta un

esquema de las etapas que conlleva un problema de

aprendizaje automático.

Figura 1: Esquema general de aprendizaje automático [10]

2.3.1 Aprendizaje supervisado

Regresión

El resultado a predecir es un valor continuo. Existe

una gran gama de algoritmos de aprendizaje supervisado

que están disponibles en la biblioteca scikit-learn de

Python. Entre ellos se encuentran disponibles algoritmos

tipo ensemble como el algoritmo Random Forest que ha

tenido resultados muy buenos en su aplicación como

algoritmo de regresión de aprendizaje supervisado [2].

 Algoritmo Decision Tree Regressor: Es un

modelo de decisiones similares a un árbol que

representa un algoritmo que solo contiene

sentencias de control condicional [12].

 Algoritmo Random Forest Regressor: Un

bosque aleatorio ajusta varios árboles de decisión

de submuestras aleatorias del conjunto de datos,

en donde el propósito es disminuir la varianza del

estimador, ya que los árboles de decisión

individuales suelen presentar una gran varianza

[12], [13].

 Algoritmo Light Gradient Boosting Machine

Regressor (LGBM): Se constituye a partir de

modelos de árboles de decisión. Lo árboles se

agregan uno a la vez y se ajustan para corregir los

errores de predicción cometidos por modelos

anteriores.

2.3.2 Ingeniería de las características

La Ingeniería de las Características (Feature

Engineering) es el proceso de crear o mejorar

características o atributos del conjunto de datos. Las

características se crean en función del sentido común,

experiencia, o dominio del conocimiento. El resultado de

este proceso es un conjunto significativo de

Edición No. 18, Issue I, Julio 2021

características que los algoritmos pueden procesar para

identificar patrones en el conjunto de datos de entrada y

construir un mejor modelo de aprendizaje automático [9],

[12].

2.3.3 Ajuste de hiperparámetros

Los algoritmos de aprendizaje automático tienen un

conjunto específico de parámetros (denominados

también hiperparámetros) que deben estimarse a partir

del conjunto de datos de entrada. Los principales

hiperparámetros de los algoritmos utilizados en el

presente estudio constituidos a partir de árboles de

decisión son: número de estimadores, profundidad

máxima, características máximas, y criterio [12].

Se han desarrollado funciones que permiten ajustar

automáticamente los diferentes hiperparámetros [14].

Búsqueda de Cuadrícula:

En la función Búsqueda de Cuadrícula los

hiperparámetros son proporcionados por el analista, y la

mejor combinación es elegida según un indicador de

puntuación de error. La combinación de hiperparámetros

forma una cuadrícula de búsqueda.

Hyperopt

Función que proporciona la configuración automática

de algoritmos de la biblioteca de aprendizaje automático

scikit-learn [15]. Hyperopt adiciona un algoritmo de

búsqueda para optimziación de hiperparámetros

denominado Estimador de Parzen Estructurado en Árbol.

El algoritmo TPE, por sus siglas en inglés (Tree-

structured Parzen Estimator) busca elegir los parámetros

con mejor rendimiento para el siguiente paso, dejando

atrás valores deficientes.

3. PROCEDIMIENTO PARA ANÁLISIS

PREDICTIVO Y DESARROLLO DE LA

HERRAMIENTA COMPUTACIONAL

3.1. Demanda del Sistema Nacional Interconectado

La Fig. 2 representa la demanda horaria de potencia

eléctrica total del Sistema Nacional Interconectado por

día y registrada en periodos de 30 minutos desde el 1 de

enero de 2014 hasta el 30 de junio de 2020 [16].

Figura 2: Demanda de potencia eléctrica SNI enero 2014-junio

2020 [16]

Los datos registrados en MW con un periodo de 30

minutos son recopilados como se indica en la Fig. 3,

representando una serie de tiempo en donde existen 48

datos por día y 17 520 datos recopilados por año.

Figura 3: Formato de registro de mediciones de la demanda

horaria de potencia eléctrica del SIN [Elaboración Propia]

3.2. Declaración de un problema de aprendizaje

automático supervisado

Un problema de aprendizaje supervisado donde los

atributos o características son variables de entrada

relacionadas con la variable objetivo, que se considera

como dependiente de las entradas, consiste en modelar

un problema de entrada/salida, donde la entrada es del

tipo matricial y la salida es un vector como se indica en

la Fig. 4.

Figura 4: Estructura del conjunto de datos de variables

características y variable objetivo

Para definir un conjunto de datos como problema de

aprendizaje supervisado en primer lugar se define las

variables características “X” (entrada) y la variable de

salida “y” (objetivo), después se divide dichos conjuntos

en subconjuntos de prueba y entrenamiento como se

observa en la Fig. 4. El tamaño (test size) puede variar

entre 10%, 20% o 30% del tamaño del conjunto de datos.

Al realizar un análisis de sensibilidad para el conjunto de

datos de demanda de potencia cambiando el tamaño del

conjunto de prueba desde el 30% al 10% para las series

de datos de demanda de potencia, el rendimiento del

algoritmo evaluado por la métrica de precisión MAPE

con valores desde 0,96% al 0,94% presentó la tendencia

de mejorar con la disminución del tamaño del conjunto

de entrenamiento, o visto de otra manera, con el aumento

del tamaño del conjunto de datos de entrenamiento. Sin

embargo, con un conjunto de datos de prueba del 10% se

obtuvo un rendimiento decreciente al volver a un MAPE

del 0,95%. Para el desarrollo de este trabajo se utilizó un

tamaño del 11% para el conjunto de datos de prueba

debido a que dicho porcentaje provocó que el

entrenamiento del algoritmo de proyección se lleve de

manera más adecuada, y dado que, los algoritmos de

aprendizaje automático no requieren de una muestra

exagerada de conjunto de datos de entrada para inferir

predicciones de gran calidad, y también, por los esfuerzos

computacionales que esto involucra; para cada tarea de

proyección en las series de datos con históricos anuales

de demanda de potencia eléctrica, se ajustaron como

Gallo et al. / Minería de Datos y Proyección a Corto Plazo de la Demanda de Potencia en el SNI

conjunto de entrada, las mediciones correspondientes a

los últimos dos meses, tomando como referencia la fecha

inicial de proyección.

Además, se debe señalar que, debido al horizonte de

proyección a corto plazo los datos históricos de demanda

de potencia deben corresponder a los registros de

mediciones más recientes. Esto debido a que, los

resultados de los estudios de proyección en el corto plazo

son utilizados principalmente en la operación y control

del sistema de potencia.

En segundo lugar, se modela el algoritmo de

aprendizaje automático ajustando sus hiperparámetros.

Luego, el conjunto de entrenamiento (entradas y salidas)

proporciona un modelo ajustado a los datos. La

evaluación del modelo se realiza con el conjunto de

prueba de variables características y variable de salida.

Finalmente, el modelo se encuentra ajustado y es

validado con una métrica de rendimiento, de tal manera

que si se proporciona un nuevo conjunto de variables

características como entrada; el modelo es capaz de

inferir valores proyectados. La métrica para evaluar las

predicciones en el presente estudio es el indicador de

error MAPE presentado en la sección 2.1.3.

3.3. Enfoques de aprendizaje supervisado para series

de tiempo y aplicación de la ingeniería de

características

Para acoplar series de tiempo (Fig. 3) en un problema

de aprendizaje supervisado es necesario representar una

serie de tiempo como un modelo autorregresivo (AR),

donde el modelo entrega la proyección de 



función de los n valores previos, como se observa en la

Fig. 5. Para ello, en Python se retrasa la serie en un

número específico de pasos, en este estudio el número de

pasos de retraso corresponde a 48, debido al número de

registros diarios de demanda de potencia recopilados

cada 30 minutos.

Figura 5: Estructura de un modelo autorregresivo [17]

Además de inferir retrasos y estructurar un modelo de

regresión en las series de tiempo, el procedimiento de

ingeniería de características permite inferir nuevas

características en las series de datos. Esta

reestructuración del conjunto de datos permite definir un

modelo matricial multivariable no lineal (ver Fig. 6) que

toma en cuenta el comportamiento de las diferentes

variables intervinientes (hora, tipo de día, etc.) como los

modelos implementados en [2], [3].

Figura 6: Reestructuración final de series de tiempo

3.4. Identificación y tratamiento de anomalías en las

series de datos

3.4.1 Datos Faltantes

Funciones de la biblioteca pandas de Python permiten

crear arreglos de fecha y tiempo en un intervalo con

frecuencia definida por el usuario. Como se ilustra en la

Fig. 7 el primer arreglo se compara fecha por fecha con

las fechas de los datos históricos de demanda horaria de

potencia eléctrica existentes en un periodo anual. En el

caso de detectar una comparación nula con una fecha se

almacena la fecha faltante.

Figura 7: Detección de valores faltantes

3.4.2 Valores atípicos

El procedimiento de detección de valores atípicos, a

través del crecimiento anual de potencia eléctrica,

consiste en determinar el crecimiento entre un dato de

potencia horaria registrada en el periodo actual y el

mismo periodo del siguiente año como se indica en (3).

  󰇡





 󰇢 (3)

Para determinar la presencia de valores atípicos se

utilizó el gráfico de caja, el cuál es un gráfico que se

construye a partir de los cuartiles y la media del conjunto

de datos. En la Fig. 8 se presentan los gráficos de caja

para el crecimiento horario anual entre los periodos 2017-

2018 y 2018-2019.

Se puede observar que los crecimientos por encima

del 30% o por debajo del -20% indican posibles límites

umbrales de crecimiento que pueden ser ingresados por

usuario para detectar comportamientos anómalos en las

series de datos.

Edición No. 18, Issue I, Julio 2021

Figura 8: Gráfico de caja crecimiento anual

3.4.3 Procedimiento para tratar con anomalías en las

series de tiempo

Al tener presente el enfoque predictivo del

aprendizaje automático se determinó que, el reemplazo

de anomalías por un valor pronosticado más probable es

la mejor opción para el desarrollo del presente estudio.

Un algoritmo de aprendizaje automático requiere de

un conjunto de datos de entrada para poder realizar

nuevas predicciones en su salida. Dichas entradas pueden

corresponder a valores en intervalos anteriores según el

horizonte de tiempo que se desee proyectar, por ejemplo,

si se desea proyectar la medición en la hora siguiente, la

entrada es la medición de la hora anterior; de esta manera,

proyectar el día siguiente correspondería a las

mediciones del día anterior.

Para calibración de hiperparámetros se utilizó la

función Hyperopt, y a manera de ejemplo ilustrativo del

procedimiento de predicción, a continuación, se describe

el procedimiento para la proyección de 48 mediciones de

demanda de potencia que corresponden a la demanda del

SNI el día 2014-04-24. Del procedimiento presentado en

la sección 3.3 se obtiene el conjunto de datos data que se

ilustra en la Fig. 9, compuesto por conjuntos de variables

características “X” y variables objetivo “y” para el

entrenamiento y prueba del algoritmo de predicción. Para

determinar el conjunto de datos de entrada requerido por

el algoritmo Random Forest para la proyección de un día

de demanda de potencia, se divide el conjunto data en

dos partes como se observa en la Fig.9; la primera parte

corresponde a todos los datos hasta dos días antes del día

a proyectar (conjunto de entrenamiento), y la segunda

parte corresponde a los datos de demanda MW del día

anterior (conjunto de entrada).

Finalmente se elimina la variable objetivo “y” y con

este conjunto de datos de entrada el algoritmo puede

realizar 48 predicciones futuras de demanda de potencia.

Para evaluación de los diferentes algoritmos

implementados en las tareas de predicción sobre las

series históricas de demanda de potencia eléctrica en

análisis se eliminaron algunos días correspondientes a 48

datos registrados de demanda de potencia eléctrica en los

datos históricos del SNI para proceder a realizar las

predicciones correspondientes. El resultado del análisis

mostró que el algoritmo que mejor se acopla a las series

históricas de demanda horaria de potencia eléctrica del

SNI, es el algoritmo Random Forest. Debido a esto, el

algoritmo Random Forest fue implementado en el

módulo de minería de datos.

Figura 9: Conjunto de datos de entrada para proyectar un día de

demanda de potencia MW

3.5. Proyección a corto plazo de la demanda horaria

de potencia eléctrica

3.5.1 Procedimiento para la proyección a corto plazo de

la demanda horaria de potencia eléctrica

El procedimiento llevado a cabo para la proyección

de demanda horaria de potencia eléctrica del SNI con un

horizonte de dos semanas se definió a partir de los

conceptos de la sección 3.4.3; no obstante, el conjunto de

datos de entrada requerido por los algoritmos de

proyección debe corresponder con un intervalo de 7 días,

y no de un solo día. Al realizar la proyección semanal con

el conjunto de entrada especificado, se procede a

estructurar un nuevo conjunto de entrada semanal (7 días)

con dichos datos proyectados, para la predicción de la

siguiente semana. Por ejemplo, en la Fig. 10 se representa

la forma en que se realiza la proyección de demanda

horaria desde el 2014-04-30 al 2014-05-13.

Es importante mencionar que, si se debe proyectar un

día festivo, el conjunto de entrada se estructura con el

mismo día feriado del año anterior; de esta manera, el

comportamiento de proyección de demanda asimilará la

tendencia de consumo que se presentó el mismo día

festivo del año anterior, lo que permite reducir el margen

de error en la proyección de días especiales.

Gallo et al. / Minería de Datos y Proyección a Corto Plazo de la Demanda de Potencia en el SNI

Figura 10: Conjunto de datos de entrada para proyección semanal

3.6. Herramienta Computacional

La programación de la herramienta computacional en

Python se estructuró de forma modular con la aplicación

de subrutinas. El diagrama de flujo de la Fig.11

esquematiza todos los procesos ordenados para llevar a

cabo la ejecución de todas las tareas que brinda la

herramienta computacional.

Figura 11: Diagrama de flujo de la herramienta computacional

A pesar de que el módulo de minería de datos y el

módulo de proyección a corto plazo constituyen una

misma interfaz gráfica, cada módulo puede ejecutarse de

manera independiente con el fin de realizar análisis por

separado de minería de datos o proyección de demanda.

El usuario puede pasar de un módulo a otro dependiendo

de las necesidades de estudio que requiera; sin embargo,

como se verá más adelante, mitigar anomalías en las

series de datos permite en general un mejor

entrenamiento y ajuste de un algoritmo de proyección.

4. APLICACIÓN DE LA HERRAMIENTA

COMPUTACIONAL Y ANÁLISIS DE

RESULTADOS

4.1. Análisis de minería de datos

Las tareas de minería de datos que se realizan a

continuación permiten estructurar series completas y

libres de datos atípicos para poder utilizarlas en las tareas

de proyección de demanda. Las tareas de detección,

imputación, y mitigación de valores faltantes y valores

atípicos se llevan sobre los registros históricos de la

demanda de potencia eléctrica del SNI, con el fin de

resaltar la importancia de eliminar anomalías en los

registros de mediciones de demanda previos al periodo

de proyección, ya que dichos registros afectan

directamente la calidad de proyección a corto plazo.

4.1.1 Análisis y detección de datos faltantes

El análisis exploratorio de datos presenta información

característica estructurando un informe que es mostrado

en pantalla por la interfaz gráfica y, a la vez, esta

información es exportada a un archivo de texto como se

presenta en la Fig. 12.

Figura 12: Informe preliminar

La información presentada permite ubicar los datos

faltantes por fecha y para cada año de las series históricas

en análisis; datos faltantes correspondientes a un total de

672 mediciones. El informe también realiza un análisis

exploratorio sobre las series de datos, indicando el

número de series anuales de los datos históricos

ingresados, calcula el periodo de registro de medición y

el número de mediciones por día. También indica si es

que un año corresponde o no a un año bisiesto.

Edición No. 18, Issue I, Julio 2021

4.1.2 Mitigación de valores faltantes

Según se indicó en la sección 3.6 la herramienta

computacional cuenta con la subrutina Completar Datos

que permite la imputación de datos faltantes por medio

del procedimiento descrito en la sección 3.4.3.

En la Tabla 1 se presenta el formato correspondiente

al archivo Excel generado con los resultados obtenidos;

por ejemplo, se puede observar que el día 2014-04-30,

detectado en el procedimiento anterior como un día con

datos faltantes, es proyectado e imputado en la serie de

datos originales. De la misma manera, todos los datos

faltantes de cada fecha presentada en el informe

preliminar son reemplazados por un valor proyectado.

Tabla 1: Formato en Excel de Series Completas

Fecha

Hora

2014-04-29

23:00:00

2666,39

2014-04-29

23:30:00

2552,93

2014-04-30

0:00:00

2305,565

Mediciones

altantes proyectadas

2014-04-30