Karina Bartolome: Transiciones en salarios de egresados universitarios

Karina Bartolomé

# Librerías ---------------------------------------------------------------
library(readr)
library(readxl)
library(dplyr)

# Datos raw ---------------------------------------------------------------
df <- read_csv('https://cdn.produccion.gob.ar/cdn-cep/araucano/base_araucano.csv')

# Diccionario de parametrías:
path <- "01_data/diccionario.xlsx"
sheetnames <- excel_sheets(path)

for(i in 1:length(sheetnames)) {
  assign(sheetnames[i],read_excel(path,sheet = i))
}

cod_letra <- cod_letra %>% 
  janitor::clean_names()

# Datos limpios -----------------------------------------------------------
df_clean <- df %>% 
  left_join(cod_rama) %>% 
  left_join(cod_genero) %>% 
  left_join(cod_disciplina) %>% 
  left_join(cod_gestion) %>% 
  left_join(cod_letra) %>% 
  left_join(cod_region) %>% 
  left_join(cod_tamaño) %>% 
  left_join(cod_titulo) %>% 
  select(id, anio, anioegreso, salario, genero, anionac, 
         rama, disciplina, tipo_titulo,
         region, tamaño, actividad = letra_1) %>% 
  arrange(id, anio)

# Save --------------------------------------------------------------------
df_clean %>% write.csv('01_data/df_clean.csv', row.names=FALSE)

Name	df %>% sample_n(10000)
Number of rows	10000
Number of columns	12
_______________________
Column type frequency:
character	7
numeric	5
________________________
Group variables	None

skim_variable	n_missing	complete_rate	min	max	n_unique
genero	0	1.00	5	5	2
rama	0	1.00	8	20	6
disciplina	0	1.00	5	59	37
tipo_titulo	0	1.00	8	30	4
region	0	1.00	3	56	7
tamaño	4159	0.58	26	28	4
actividad	4162	0.58	9	99	19

skim_variable	n_missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
id	0	1.00	135403.34	79433.12	30.00	66699.75	136012.00	204375.5	273414	▇▇▇▇▇
anio	0	1.00	2020.00	0.82	2019.00	2019.00	2020.00	2021.0	2021	▇▁▇▁▇
anioegreso	0	1.00	2017.13	0.80	2016.00	2016.00	2017.00	2018.0	2018	▅▁▇▁▇
salario	4159	0.58	103218.73	146398.61	0.01	46515.71	76442.96	126998.5	8444075	▇▁▁▁▁
anionac	14	1.00	1986.53	8.02	1942.00	1984.00	1989.00	1992.0	1999	▁▁▁▅▇

id	anio	salario	segmento	segmento_bin
Muestra de 3 individuos
52626	2019	78086.83	salario_alto	(66843.29,3167481]
52626	2020	95589.99	salario_alto	(92620.03,9518290]
52626	2021	146394.27	salario_medio	(90000,151751]
210311	2019	NA	sin_empleo_registrado	NA
210311	2020	143800.00	salario_alto	(92620.03,9518290]
210311	2021	8470.07	salario_bajo	[0.01,90000]
234946	2019	78248.07	salario_alto	(66843.29,3167481]
234946	2020	NA	sin_empleo_registrado	NA
234946	2021	NA	sin_empleo_registrado	NA

segmento	2019	2020	2021
Cantidad de individuos por segmento en cada año
sin_empleo_registrado	4489	4361	4102
salario_bajo	1837	1890	1967
salario_medio	1837	1869	1965
salario_alto	1837	1880	1966

Transiciones en salarios de egresados universitarios

Author

Affiliation

Published

Citation

Introducción

1. Librerías y definiciones

2. Data

3. Análisis exploratorio de los datos

4. Definición de segmentos

5. Visualización de la transición entre segmentos

6. Cadenas de markov

6.1. Ejemplo simple

6.2. Transición en segmentos de salarios

Probabilidad en 2 años

Comentarios finales

Contacto ✉

SessionInfo()

Footnotes

References

Citation

	sin_empleo_registrado	salario_bajo	salario_medio	salario_alto
Matriz de transición
sin_empleo_registrado	0.85	0.09	0.04	0.02
salario_bajo	0.13	0.68	0.16	0.03
salario_medio	0.06	0.12	0.67	0.15
salario_alto	0.05	0.02	0.12	0.81

	sin_empleo_registrado	salario_bajo	salario_medio	salario_alto
sin_empleo_registrado	0.75	0.14	0.07	0.04
salario_bajo	0.22	0.49	0.22	0.07
salario_medio	0.11	0.17	0.49	0.23
salario_alto	0.09	0.05	0.18	0.68

package	loadedversion	date	source
Paquetes utilizados
Versiones
dplyr	1.1.1	2023-03-22	CRAN (R 4.2.3)
forcats	1.0.0	2023-01-29	CRAN (R 4.2.3)
ggplot2	3.4.2	2023-04-03	CRAN (R 4.2.0)
gt	0.9.0	2023-03-31	CRAN (R 4.2.3)
igraph	1.3.2	2022-06-13	CRAN (R 4.2.0)
lubridate	1.9.2	2023-02-10	CRAN (R 4.2.3)
markovchain	0.9.1	2023-01-19	CRAN (R 4.2.3)
purrr	1.0.1	2023-01-10	CRAN (R 4.2.3)
readr	2.1.4	2023-02-10	CRAN (R 4.2.3)
skimr	2.1.4	2022-04-15	CRAN (R 4.2.0)
stringr	1.5.0	2022-12-02	CRAN (R 4.2.3)
tibble	3.2.1	2023-03-20	CRAN (R 4.2.3)
tidyr	1.3.0	2023-01-24	CRAN (R 4.2.3)
tidyverse	2.0.0	2023-02-22	CRAN (R 4.2.3)