WEBVTT 1 00:00:01.200 --> 00:00:04.360 La editorial Catarata acaba de publicar este breve 2 00:00:04.440 --> 00:00:06.160 y oportuno ensayo divulgativo 3 00:00:06.240 --> 00:00:09.560 para acercar a los interesados, "Las bases de big data 4 00:00:09.640 --> 00:00:12.040 y de la inteligencia artificial", 5 00:00:12.120 --> 00:00:15.400 como su propio título indica, a cargo del ingeniero técnico 6 00:00:15.480 --> 00:00:18.080 y doctor en Matemáticas Rafael Caballero 7 00:00:18.160 --> 00:00:21.800 y del profesor y doctor en Ingeniería Informática 8 00:00:21.880 --> 00:00:23.560 Enrique Martín. 9 00:00:23.640 --> 00:00:26.400 Quien damos ya la bienvenida. Gracias por el libro 10 00:00:26.480 --> 00:00:29.520 y por aceptar nuestra invitación. Un placer. 11 00:00:30.000 --> 00:00:34.640 La primera pregunta es: "¿Cuáles son los datos que proporcionamos 12 00:00:34.720 --> 00:00:39.200 los ciudadanos sin ser, digamos, demasiado 13 00:00:39.280 --> 00:00:42.440 conscientes de que los estamos dando 14 00:00:42.520 --> 00:00:47.200 y para qué suelen utilizarse en primera, vamos, 15 00:00:47.280 --> 00:00:49.400 instancia, así en general? 16 00:00:49.880 --> 00:00:51.520 La verdad es que las personas 17 00:00:51.600 --> 00:00:54.720 siempre que interactuamos con un dispositivo electrónico, 18 00:00:54.800 --> 00:00:56.880 sobre todo si estamos conectados a internet, 19 00:00:56.960 --> 00:00:58.920 L:4% generamos gran cantidad de datos. 20 00:00:59.000 --> 00:01:00.960 L:4% Muchos de ellos son bastante obvios. 21 00:01:01.040 --> 00:01:03.600 L:4% Claro que los generamos y somos conscientes de ellos. 22 00:01:03.880 --> 00:01:06.720 Si entras en un buscador y pones una consulta, 23 00:01:06.800 --> 00:01:09.600 el texto que has puesto es un dato que proporcionas 24 00:01:09.680 --> 00:01:11.280 y eres consciente de ello. 25 00:01:11.480 --> 00:01:13.800 Si vas a comprar en una tienda online, 26 00:01:13.880 --> 00:01:18.320 tienes que proporcionar datos de registro de usuario, 27 00:01:18.400 --> 00:01:20.760 L:4% cómo te llamas, dónde vives, para hacer el envío. 28 00:01:20.840 --> 00:01:22.400 L:4% Los datos de facturación. 29 00:01:22.480 --> 00:01:24.080 L:4% Y los productos que compras. 30 00:01:24.160 --> 00:01:26.960 L:4% Esos son los datos que podríamos decir que estos los sé. 31 00:01:27.040 --> 00:01:30.760 "Es 100 por 100 seguro que los he proporcionado". 32 00:01:30.840 --> 00:01:31.960 Sin embargo... 33 00:01:32.040 --> 00:01:35.320 También cuando compras. Compras en un supermercado 34 00:01:35.400 --> 00:01:36.760 y pagas con la tarjeta... 35 00:01:37.320 --> 00:01:38.920 Sí, sí. 36 00:01:39.000 --> 00:01:43.280 Esos puedes estar menos seguro de que los estás dando. 37 00:01:43.360 --> 00:01:47.320 Pero aparte en estos sitios, en las páginas web, 38 00:01:47.640 --> 00:01:51.400 incluso el cómo estás interactuando con esa página. 39 00:01:51.680 --> 00:01:53.080 Cuando te sale un resultado, 40 00:01:53.160 --> 00:01:55.280 vas a un buscador, te sale una página de 10. 41 00:01:55.480 --> 00:01:57.960 ¿A cuál vas a pinchar? ¿Cuánto tardas en decidir? 42 00:01:58.040 --> 00:02:00.600 ¿Cuál era ese resultado que te interesa? 43 00:02:00.680 --> 00:02:03.880 O cuando estás en una plataforma de streaming 44 00:02:03.960 --> 00:02:06.960 cómo haces las búsquedas, qué pinchas, qué es lo que ves. 45 00:02:07.040 --> 00:02:10.199 Qué productos has mirado, aunque luego no hayas comprado. 46 00:02:10.280 --> 00:02:13.680 Todo eso que parece que no son datos, sí que son datos 47 00:02:13.760 --> 00:02:17.160 que proporcionamos y que pueden permitir 48 00:02:17.240 --> 00:02:20.720 a ese comercio catalogarnos un poco mejor, 49 00:02:20.800 --> 00:02:23.320 saber a quién nos parecemos. De tal manera que... 50 00:02:23.400 --> 00:02:26.880 el uso principal es la mejora del servicio. 51 00:02:26.960 --> 00:02:30.280 Si tú has servido un montón de resultados 52 00:02:30.360 --> 00:02:32.320 de la misma búsqueda en el día de hoy 53 00:02:32.720 --> 00:02:35.680 y sabes más o menos la gente a qué ha pinchado. 54 00:02:35.760 --> 00:02:37.240 Si tú le has dado siempre 55 00:02:37.320 --> 00:02:40.400 o creías que el resultado más interesante 56 00:02:40.480 --> 00:02:43.800 era el primero, pero la gente va en masa al segundo o al tercero, 57 00:02:43.880 --> 00:02:46.200 eso te permite que a partir de ese momento 58 00:02:46.280 --> 00:02:49.240 vayas a refinar esos resultados de la búsqueda. 59 00:02:49.320 --> 00:02:52.240 Obviamente, un buscador lo que quiere es ser el mejor, 60 00:02:52.320 --> 00:02:55.640 proporcionar resultados relevantes de tal manera que la gente vuelva. 61 00:02:55.720 --> 00:02:58.880 Posiblemente vea más anuncios y al final haga dinero. 62 00:02:58.960 --> 00:03:02.880 Y lo mismo con una tienda online o con una plataforma de streaming. 63 00:03:02.960 --> 00:03:04.200 Quiere que vayas a comprar 64 00:03:04.280 --> 00:03:06.280 L:4% porque te da los productos más relevantes. 65 00:03:06.360 --> 00:03:10.280 L:4% Vayas allí porque vas a ver una serie o una películas 66 00:03:10.360 --> 00:03:14.240 L:4% que te proporciona recomendaciones que te parecen interesantes. 67 00:03:14.320 --> 00:03:17.520 Ese sería el uso más normal. ¿Y qué otros usos? 68 00:03:17.600 --> 00:03:22.000 ¿Qué otros usos son posibles que no sean tan beneficiosos, 69 00:03:22.080 --> 00:03:24.320 en principio, para el propio usuario? 70 00:03:24.400 --> 00:03:28.520 Bueno, estamos dando... Si al final consigues muchos datos 71 00:03:28.600 --> 00:03:32.400 y puedes conseguir datos de personas de distintas fuentes, 72 00:03:32.480 --> 00:03:33.800 si consigues agregarlos, 73 00:03:33.880 --> 00:03:36.560 puedes llegar a conocer bastante a esas personas. 74 00:03:36.640 --> 00:03:39.120 Incluso puede decirse, exagerando, 75 00:03:39.200 --> 00:03:41.520 que puedes conocerles más que ellas mismas. 76 00:03:42.320 --> 00:03:45.040 ¿Para qué te puede servir esa información si consigues 77 00:03:45.560 --> 00:03:48.880 si consigues agregarla y tenerla toda junta? 78 00:03:48.960 --> 00:03:51.600 Te puede servir para hacer modelos predictivos 79 00:03:51.680 --> 00:03:53.360 a lo mejor de cuándo una persona 80 00:03:53.440 --> 00:03:55.720 será pagar una hipoteca o no. 81 00:03:55.800 --> 00:03:58.480 Eso te puede servir para concederla o no concederla. 82 00:03:58.680 --> 00:04:01.680 Te puede servir también para conocer o para predecir, 83 00:04:01.760 --> 00:04:04.760 con incertidumbre de manera probabilística, 84 00:04:04.840 --> 00:04:08.560 cuando una persona que trata de contratar un seguro de salud, 85 00:04:08.640 --> 00:04:10.760 va a utilizarlo mucho 86 00:04:10.840 --> 00:04:14.120 o más de lo que consideras que podría ser necesario. 87 00:04:14.200 --> 00:04:16.839 Incluso hay ejemplos, 88 00:04:17.200 --> 00:04:20.519 digamos, más delicados que tienen impacto en la vida de la gente. 89 00:04:20.600 --> 00:04:25.080 Es bastante importante. Hay sistemas para predecir 90 00:04:25.160 --> 00:04:28.240 cuando a lo mejor un recluso que está pidiendo 91 00:04:28.320 --> 00:04:30.360 un permiso, va a reincidir o no 92 00:04:30.440 --> 00:04:32.840 en base a un montón de datos. 93 00:04:32.920 --> 00:04:36.840 O... Pues hay bastantes usos, 94 00:04:36.920 --> 00:04:40.920 digamos, que salen fuera de la mejora del servicio. 95 00:04:41.000 --> 00:04:43.440 ¿Cómo surgió este mundo nuevo en el que estamos? 96 00:04:43.520 --> 00:04:45.600 Nuevo desde hace algún tiempo. 97 00:04:45.680 --> 00:04:49.400 ¿Cómo es la historia del análisis de datos? 98 00:04:50.360 --> 00:04:52.800 Pues yo creo que los datos, a ver... 99 00:04:52.880 --> 00:04:54.600 Las personas siempre han estado allí. 100 00:04:54.680 --> 00:04:58.520 Una persona interactuando con distintos sistemas 101 00:04:58.600 --> 00:04:59.800 está generando datos. 102 00:04:59.880 --> 00:05:02.840 Es verdad, mi opinión es, creo que... 103 00:05:02.920 --> 00:05:05.520 hemos ido avanzando en la capacidad técnica. 104 00:05:05.760 --> 00:05:07.880 Tanto para obtener los datos 105 00:05:07.960 --> 00:05:11.640 como para almacenarlos y, sobre todo, para analizarlos. 106 00:05:11.720 --> 00:05:15.320 Para extraer información. Los datos por sí solos no sirven para nada. 107 00:05:15.400 --> 00:05:18.720 Simplemente puedes tener 50 discos duros lleno de yo qué sé 108 00:05:18.800 --> 00:05:20.560 de preferencias de compras, 109 00:05:20.640 --> 00:05:23.040 pero si no sabes hacer algo con ellos, 110 00:05:23.120 --> 00:05:24.200 no te sirve para nada. 111 00:05:24.280 --> 00:05:27.800 Entonces en los últimos años hemos ido mejorando. 112 00:05:27.880 --> 00:05:29.520 Al principio, 113 00:05:29.600 --> 00:05:32.560 cuando los años 60, 70, pues obviamente 114 00:05:32.640 --> 00:05:35.520 los inicios de las informática sí que... 115 00:05:35.600 --> 00:05:38.680 había capacidad para hacer un censo y almacenar los datos 116 00:05:38.760 --> 00:05:41.680 de las personas en cintas. 117 00:05:41.760 --> 00:05:46.080 Como los... Era un formato de almacenamiento 118 00:05:46.560 --> 00:05:48.520 parecido a los VHS. 119 00:05:48.600 --> 00:05:50.600 O a los casetes de antes. 120 00:05:50.680 --> 00:05:53.040 Y el acceso era lineal 121 00:05:53.120 --> 00:05:54.760 y era todo bastante más complicado. 122 00:05:55.200 --> 00:05:56.760 Luego podríamos pensar 123 00:05:56.840 --> 00:05:59.160 que el siguiente hito importante 124 00:05:59.240 --> 00:06:01.680 es la llegada de las bases de datos relacionales. 125 00:06:02.040 --> 00:06:06.000 Que son... Es un modelo de datos mucho más flexible. 126 00:06:06.080 --> 00:06:09.320 Ya no recorres una cinta de inicio a fin 127 00:06:09.400 --> 00:06:10.640 para buscar a una persona. 128 00:06:10.720 --> 00:06:13.200 Sabes que está a la mitad y tienes que ir a la mitad. 129 00:06:13.280 --> 00:06:17.280 Era muy poco flexible. 130 00:06:17.360 --> 00:06:19.680 Con la llegada de las bases de datos relacionales, 131 00:06:19.760 --> 00:06:23.560 que conceptualmente es un modelo muy sencillo. 132 00:06:23.720 --> 00:06:25.720 Y es almacenar los datos en tablas. 133 00:06:26.080 --> 00:06:29.680 Entonces, piensas: "Tengo que almacenar personas". 134 00:06:29.760 --> 00:06:31.600 Cada fila de mi tabla es una persona. 135 00:06:32.080 --> 00:06:33.960 La idea de una base de datos relacional 136 00:06:34.040 --> 00:06:35.680 es ir más para allá y decir: "Oye, 137 00:06:35.920 --> 00:06:37.920 no metas todos los datos de una persona 138 00:06:38.000 --> 00:06:41.040 en la misma fila porque a lo mejor estás haciendo duplicidades. 139 00:06:41.120 --> 00:06:44.280 Las duplicidades en una base de datos no son deseables 140 00:06:44.360 --> 00:06:46.960 porque te pueden llevar a producir inconsistencias. 141 00:06:47.040 --> 00:06:50.080 Imagínate que hay cinco personas que vivan en la misma casa. 142 00:06:50.440 --> 00:06:52.320 Vas a tener que almacenar cinco veces 143 00:06:52.400 --> 00:06:54.360 la dirección de la casa con todo detalle. 144 00:06:54.440 --> 00:06:57.320 La calle, el piso, el número, etcétera. 145 00:06:57.720 --> 00:07:00.520 Si por lo que sea te has equivocado y no era el número 14, 146 00:07:00.600 --> 00:07:01.640 era el número 15, 147 00:07:01.720 --> 00:07:03.960 vas a tener que corregir las cinco apariciones. 148 00:07:04.480 --> 00:07:08.480 Y si por lo que sea no te das cuenta y te queda una 149 00:07:08.560 --> 00:07:10.920 con el número antiguo y en lugar del 15 es el 16, 150 00:07:11.440 --> 00:07:14.920 al final acabas con una base de datos que es inconsistente. 151 00:07:15.000 --> 00:07:16.760 Es decir, que depende a qué fila mires 152 00:07:17.200 --> 00:07:19.440 puedes pensar que vive en el número 14, 153 00:07:19.520 --> 00:07:22.600 que era el erróneo, o el 15, que es el nuevo. 154 00:07:22.960 --> 00:07:25.960 Esa idea que conceptualmente es sencilla, 155 00:07:26.040 --> 00:07:30.160 pues permitió un uso bastante interesante de las bases de datos. 156 00:07:30.240 --> 00:07:32.760 Aparte que con las bases de datos relacionales 157 00:07:33.760 --> 00:07:35.520 se definen como un estándar, 158 00:07:35.600 --> 00:07:37.160 hay distintos sistemas 159 00:07:37.240 --> 00:07:39.240 que usan el mismo concepto, con lo cual 160 00:07:39.320 --> 00:07:42.960 si eres una empresa y utilizas una base de datos relacional 161 00:07:43.040 --> 00:07:45.640 de una empresa concreta 162 00:07:45.720 --> 00:07:48.400 y por lo que sea no te sirve del todo, 163 00:07:48.480 --> 00:07:50.120 siempre te puedes cambiar a otra. 164 00:07:50.200 --> 00:07:53.200 Porque usan un lenguaje estandarizado de consultas 165 00:07:53.280 --> 00:07:55.200 que se llama SQL. 166 00:07:55.520 --> 00:07:59.160 Y gracias a eso se pueden hacer consultas muchísimo más potentes 167 00:07:59.240 --> 00:08:00.920 que las que podíamos hacer antes. 168 00:08:01.000 --> 00:08:04.240 Podríamos agregar datos. Si eres una empresa 169 00:08:04.320 --> 00:08:06.320 o tienes un montón de tiendas físicas. 170 00:08:06.400 --> 00:08:09.600 "Voy a agregar los datos de ventas de las tiendas de Madrid". 171 00:08:09.680 --> 00:08:12.120 Y eso con SQL se puede hacer. 172 00:08:12.200 --> 00:08:13.280 Muy sencillo. 173 00:08:13.680 --> 00:08:16.680 Y luego, unos cuantos años después... 174 00:08:16.760 --> 00:08:19.800 Las bases de datos relacionales... Sería la primera revolución. 175 00:08:19.880 --> 00:08:24.400 Sí. En el libro lo presentamos más o menos así. 176 00:08:24.480 --> 00:08:27.000 Al principio lo llamamos los tiempos heroicos, 177 00:08:27.080 --> 00:08:29.880 es tener que coger los datos físicos de la gente 178 00:08:29.960 --> 00:08:34.280 en papel y pasarlos a las cintas a través de tarjetas perforadas, 179 00:08:34.360 --> 00:08:37.520 que ya solo existen en museos de informática. 180 00:08:37.600 --> 00:08:38.840 Y en las películas. Claro. 181 00:08:38.919 --> 00:08:42.480 Cuando ves cosas de los años 50. 182 00:08:43.039 --> 00:08:45.080 La siguiente evolución con los discos duros 183 00:08:45.160 --> 00:08:46.760 y las bases de datos relacionales. 184 00:08:47.200 --> 00:08:50.520 Se popularizaron en los años 70, 80. 185 00:08:50.600 --> 00:08:52.760 Es una tecnología que se usa ahora mismo. 186 00:08:52.840 --> 00:08:54.720 "Como es antigua no la usamos". 187 00:08:54.800 --> 00:08:55.800 Sí la usamos. 188 00:08:55.880 --> 00:08:59.360 Más de la mitad de bases de datos que se utilizan hoy en día 189 00:08:59.440 --> 00:09:00.960 son bases de datos relacionales. 190 00:09:01.040 --> 00:09:04.600 Es un modelo muy... Es muy claro. 191 00:09:04.680 --> 00:09:07.600 Tienes mucho legado. 192 00:09:07.680 --> 00:09:08.800 Tienes mucha herencia. 193 00:09:09.160 --> 00:09:10.280 Y siguen funcionando. 194 00:09:10.680 --> 00:09:12.040 ¿Qué ocurre? Pues que... 195 00:09:12.120 --> 00:09:15.240 cuando llega internet, llega la expansión, 196 00:09:15.320 --> 00:09:17.680 todo el mundo tiene ordenador, millones de webs... 197 00:09:18.080 --> 00:09:20.640 Y llega un problema que antes no teníamos, 198 00:09:20.720 --> 00:09:23.040 que es exactamente que tenemos muchísimos datos, 199 00:09:23.120 --> 00:09:25.920 que ya no entran tan bien en una base de datos. 200 00:09:26.120 --> 00:09:27.960 Las bases de datos relacionales estaban 201 00:09:28.040 --> 00:09:31.160 diseñadas para un mundo que no había 202 00:09:31.240 --> 00:09:33.960 esta supermultiplicidad de información. 203 00:09:34.040 --> 00:09:35.360 Tantísima información. Claro. 204 00:09:35.440 --> 00:09:38.120 Entonces nos enfrentamos a nuevos problemas. 205 00:09:38.200 --> 00:09:39.880 Nuevos problemas de almacenamiento. 206 00:09:39.960 --> 00:09:44.400 Si no cabe en un ordenador, ¿qué hago? Almacenarlo en varios. 207 00:09:44.960 --> 00:09:47.040 Y el procesamiento también. 208 00:09:47.120 --> 00:09:50.040 Los datos por sí solos no valen nada. 209 00:09:50.120 --> 00:09:53.040 L:4% Tenemos que extraer conocimiento. 210 00:09:53.120 --> 00:09:56.640 L:4% Uno sitios... minería de datos. 211 00:09:56.720 --> 00:09:59.240 Tengo datos, hago minería, extraigo algo valioso 212 00:09:59.320 --> 00:10:02.080 de algo que no tenía valor. Exactamente igual. 213 00:10:02.160 --> 00:10:04.000 Esos son los big data, ¿no? 214 00:10:04.080 --> 00:10:08.240 Sí. Esa sería la revolución de big data. 215 00:10:08.320 --> 00:10:11.600 Big data para dar una definición general. 216 00:10:11.680 --> 00:10:14.560 Son todas las tecnologías que nos sirven 217 00:10:14.640 --> 00:10:17.320 para obtener, almacenar 218 00:10:17.400 --> 00:10:20.520 y procesar grandes cantidades de datos. 219 00:10:20.840 --> 00:10:24.800 Grandes cantidades de datos es algo que no te cabe en un solo ordenador. 220 00:10:25.280 --> 00:10:27.080 Podemos hablar de cientos de gigas, 221 00:10:27.160 --> 00:10:28.840 de cientos de terabytes. 222 00:10:28.920 --> 00:10:32.840 Incluso de petabytes. Son grandísimas cantidades de datos. 223 00:10:34.000 --> 00:10:35.520 ¿Y cómo hacemos eso? 224 00:10:35.600 --> 00:10:38.560 ¿Cómo conseguimos almacenarlo y cómo conseguimos procesarlo? 225 00:10:38.640 --> 00:10:40.440 Pues obviamente tenemos que... 226 00:10:41.040 --> 00:10:44.240 dejar de pensar que un único ordenador nos puede ayudar en eso. 227 00:10:44.320 --> 00:10:45.960 Está totalmente sobrepasado. 228 00:10:46.360 --> 00:10:49.600 Y la idea básica, la idea fundamental es: 229 00:10:49.680 --> 00:10:51.600 todo lo que tenga que hacer con los datos 230 00:10:51.680 --> 00:10:54.200 lo voy a tener que hacer en un cluster de ordenadores. 231 00:10:54.280 --> 00:10:56.840 Cluster es la palabra técnica para referirse 232 00:10:56.920 --> 00:10:58.520 a un conjunto de ordenadores 233 00:10:58.600 --> 00:11:01.680 que están interconectados y que colaboran en la tarea. 234 00:11:01.760 --> 00:11:04.440 La tarea puede ser almacenar o puede ser procesar. 235 00:11:04.920 --> 00:11:07.320 Pero si tienes un fichero muy muy grande 236 00:11:07.400 --> 00:11:09.200 que no te cabe en un único ordenador, 237 00:11:09.280 --> 00:11:11.320 lo que vas a hacer es trocearlo en trocitos, 238 00:11:11.400 --> 00:11:14.000 obviamente, más manejables y los vas a ir repartiendo. 239 00:11:14.080 --> 00:11:16.240 A este ordenador este y a este ordenador otro. 240 00:11:16.720 --> 00:11:18.000 El uso de clusters 241 00:11:18.080 --> 00:11:21.800 plantea un problema... Si tengo un ordenador, 242 00:11:21.880 --> 00:11:23.160 si se rompe lo pierdo todo, 243 00:11:23.240 --> 00:11:25.280 pero mientras esté encendido lo tengo todo. 244 00:11:25.360 --> 00:11:28.800 Si lo tengo repartido entre 500, 1000, 2000 ordenadores, 245 00:11:29.320 --> 00:11:30.680 si uno se me rompe, 246 00:11:31.600 --> 00:11:32.880 ¿qué hago con eso? 247 00:11:32.960 --> 00:11:35.520 Obviamente, si tienes tantos, seguramente 248 00:11:35.600 --> 00:11:38.720 cada dos tres días se rompa uno, porque es lo más normal. 249 00:11:38.800 --> 00:11:41.840 La fuente de alimentación, el disco duro, alguna conexión 250 00:11:42.160 --> 00:11:43.480 se te rompe. 251 00:11:43.560 --> 00:11:45.960 Entonces, aparte de distribuir la carga, 252 00:11:46.040 --> 00:11:48.400 los datos y la carga de procesamiento 253 00:11:48.480 --> 00:11:50.040 de los distintos ordenadores, 254 00:11:50.120 --> 00:11:53.960 lo que tienen que tener las tecnologías de big data 255 00:11:54.040 --> 00:11:57.960 es una resolución de problemas. 256 00:11:58.040 --> 00:12:00.600 Es como ser resilientes. 257 00:12:00.680 --> 00:12:02.320 Los fallos van a ocurrir. 258 00:12:02.400 --> 00:12:05.040 "No, me gustaría...". 259 00:12:05.120 --> 00:12:07.160 ¿Si no falla ninguno va a ir todo bien? No. 260 00:12:07.240 --> 00:12:10.120 Te va a fallar alguno y aun así queremos que salga todo bien. 261 00:12:10.200 --> 00:12:13.760 Entones, aparte de dividir lo que se suele hacer es replicar. 262 00:12:14.040 --> 00:12:15.880 Que tengo este fichero tan grande 263 00:12:15.960 --> 00:12:18.280 que lo he dividido en ficheros chiquititos, 264 00:12:18.360 --> 00:12:21.040 cada uno de ellos lo replico y no solo se lo doy a uno, 265 00:12:21.120 --> 00:12:23.320 sino que se lo doy a dos, tres, cuatro o cinco. 266 00:12:23.400 --> 00:12:25.880 Que se cae este, no pasa nada, tengo cuatro copias. 267 00:12:25.960 --> 00:12:27.400 Se caen estos dos, tengo tres. 268 00:12:27.480 --> 00:12:30.240 Si se caen cinco o seis... Pero eso es poco probable. 269 00:12:30.320 --> 00:12:33.880 Entonces las bases de big data podríamos pensar que son 270 00:12:33.960 --> 00:12:36.480 esa dos, distribuir y replicar 271 00:12:36.560 --> 00:12:40.120 y siempre, cuando estás haciendo un cómputo, utilizar 272 00:12:40.200 --> 00:12:44.480 que cada ordenador trabaje con un trocito 273 00:12:44.560 --> 00:12:47.760 manejable de la información y luego sean capaces de... 274 00:12:47.840 --> 00:12:50.960 La diferencia con los datos relacionales 275 00:12:51.040 --> 00:12:52.760 es la dimensión, ¿no? 276 00:12:52.840 --> 00:12:56.160 La dimensión y a lo mejor un poco el sistema de... 277 00:12:56.520 --> 00:12:57.520 de análisis. 278 00:12:57.600 --> 00:13:00.360 Bueno, el sistema de análisis podría ser parecido. 279 00:13:00.440 --> 00:13:01.720 Eso no ha cambiado, ¿no? 280 00:13:01.800 --> 00:13:04.880 Sí. Una bases de datos relacional 281 00:13:04.960 --> 00:13:07.520 se centra más en cómo almacenas los datos. 282 00:13:07.600 --> 00:13:09.520 Es un modelo de datos muy concreto. 283 00:13:09.600 --> 00:13:13.080 Tú estás forzado a dividir los datos en tablas, 284 00:13:13.160 --> 00:13:15.560 que las tienes que juntar. Si has dicho: 285 00:13:15.640 --> 00:13:16.960 "Las personas están por aquí 286 00:13:17.040 --> 00:13:19.240 y aquí están en la otra tabla las direcciones 287 00:13:19.320 --> 00:13:20.720 y hay una manera de unirlas. 288 00:13:20.800 --> 00:13:24.280 Las personas con las direcciones de manera que no tengo que hacer... 289 00:13:24.360 --> 00:13:26.880 escribir varias veces los datos de la misma dirección. 290 00:13:26.960 --> 00:13:29.280 Si hay cinco personas que viven en la misma calle, 291 00:13:29.360 --> 00:13:31.440 pongo las mismas relaciones a esa tablita. 292 00:13:32.320 --> 00:13:35.680 Entonces es un modelo de datos que te sirve para almacenarlo 293 00:13:35.760 --> 00:13:37.240 y para obtener la información. 294 00:13:37.320 --> 00:13:39.760 Luego el procesamiento posterior que tú vayas a hacer 295 00:13:39.840 --> 00:13:41.680 es bastante independiente. 296 00:13:42.040 --> 00:13:44.760 El procesamiento que se suele hacer... 297 00:13:44.840 --> 00:13:48.000 Tú quieres obtener un modelo predictivo 298 00:13:48.080 --> 00:13:51.080 o un modelo, yo qué sé, para... un reconocedor. 299 00:13:51.160 --> 00:13:54.520 Una foto y me dices si es un gato o es un perro. 300 00:13:54.920 --> 00:13:57.160 Vas a utilizar inteligencia artificial 301 00:13:57.240 --> 00:14:01.000 y seguramente algoritmos de aprendizaje automático 302 00:14:01.080 --> 00:14:03.200 y le va a dar un poco igual 303 00:14:03.280 --> 00:14:07.160 de dónde concretamente estés tú extrayendo tú los datos. 304 00:14:07.440 --> 00:14:09.840 ¿Los puedes extraer de una base de datos relacional? 305 00:14:09.920 --> 00:14:10.920 Claro que sí. 306 00:14:11.000 --> 00:14:13.200 ¿De una base de datos más orientada a big data, 307 00:14:13.280 --> 00:14:15.640 que serían las bases No SQL? 308 00:14:15.720 --> 00:14:17.760 Pues también podrías. Lo que sí es verdad 309 00:14:17.840 --> 00:14:19.840 es que si usas una base de datos relacional 310 00:14:19.920 --> 00:14:22.000 la cantidad máxima de datos que vas a tener 311 00:14:22.080 --> 00:14:25.360 seguramente va a ser mucho más pequeña. 312 00:14:25.440 --> 00:14:28.320 Por ejemplo, ahora que está hablándose 313 00:14:28.400 --> 00:14:32.640 de una nueva posibilidad de pandemia con todo esto de... 314 00:14:32.960 --> 00:14:35.200 de la viruela del mono y todo eso, 315 00:14:35.280 --> 00:14:38.520 los big data pueden ayudar mucho a saber 316 00:14:38.600 --> 00:14:40.760 cómo se va a desarrollar o cómo... 317 00:14:41.280 --> 00:14:45.560 Sí, por un lado, hay una cosa interesante que es 318 00:14:45.640 --> 00:14:48.960 se puede saber cosas de la población en base a lo que busca la gente. 319 00:14:49.040 --> 00:14:51.560 Si tú tienes un buscador... 320 00:14:51.640 --> 00:14:54.680 Tú eres dueño de un buscador, simplemente sabiendo las tendencias 321 00:14:54.760 --> 00:14:58.120 de lo que busca la gente incluso hay algún experimento de Google 322 00:14:58.200 --> 00:15:01.200 que podía llegar a predecir cuál iba a ser el impacto 323 00:15:01.280 --> 00:15:05.320 de la gripe normal, creo que era en EE. UU. 324 00:15:05.400 --> 00:15:09.200 Yo creo que para la pandemia o para la nueva... 325 00:15:09.280 --> 00:15:13.280 la nueva esta viruela del mono podría ser utilizado. 326 00:15:13.360 --> 00:15:16.400 También es verdad que dependiendo de la información 327 00:15:16.480 --> 00:15:20.720 o el conocimiento que tengas de la transmisión de enfermedades, 328 00:15:20.800 --> 00:15:22.880 tienes un modelo aunque sea muy complejo. 329 00:15:22.960 --> 00:15:26.160 Imaginamos también. El clima es un modelo complejo, 330 00:15:26.240 --> 00:15:27.960 y aun así se puede hacer previsiones. 331 00:15:28.040 --> 00:15:32.440 Con lo que hemos aprendido con la pandemia del coronavirus... 332 00:15:32.520 --> 00:15:36.440 También tendrá con su diferencia y sus matices 333 00:15:36.520 --> 00:15:38.400 en transmisión y todo eso 334 00:15:38.480 --> 00:15:41.920 y en inmunidad previa que tengamos por la viruela normal. 335 00:15:42.320 --> 00:15:44.920 Big data nos podría ayudar. 336 00:15:45.000 --> 00:15:46.800 Y la inteligencia artificial... 337 00:15:46.880 --> 00:15:48.880 Nos dicen que nos queda poco tiempo. 338 00:15:48.960 --> 00:15:51.200 Me quedan un par de preguntas. 339 00:15:51.280 --> 00:15:54.600 La inteligencia artificial. Hablemos un poco de qué, 340 00:15:54.680 --> 00:15:56.680 cómo se usa, para qué sirve. 341 00:15:57.080 --> 00:16:00.400 Pues la inteligencia artificial es una rama de la informática 342 00:16:00.480 --> 00:16:02.160 que se encarga de resolver tareas 343 00:16:02.600 --> 00:16:05.520 que normalmente hacemos las personas. 344 00:16:05.600 --> 00:16:09.680 Por ejemplo, reconocer fotos, reconocer textos, reconocer voz. 345 00:16:10.160 --> 00:16:11.760 Conducir vehículos. 346 00:16:11.840 --> 00:16:14.840 Tareas que son complejas. Jugar a la ajedrez, por ejemplo. 347 00:16:16.120 --> 00:16:18.720 La inteligencia artificial es muy amplia. 348 00:16:18.800 --> 00:16:22.520 Para big data se centra más 349 00:16:22.600 --> 00:16:25.000 en un tipo muy concreto de inteligencia artificial 350 00:16:25.080 --> 00:16:26.760 que es el aprendizaje automático. 351 00:16:26.840 --> 00:16:31.040 El aprendizaje automático es el proceso por el cual tú le das 352 00:16:31.120 --> 00:16:32.400 una cantidad de datos, 353 00:16:32.480 --> 00:16:35.200 cuanto más grande mejor... Y por eso está relacionado... 354 00:16:35.280 --> 00:16:38.640 O sea, toda esta mejora de los modelos 355 00:16:38.720 --> 00:16:40.840 viene de la mano de tengo muchos más datos, 356 00:16:40.920 --> 00:16:43.160 tengo algoritmos que aprenden a partir de datos, 357 00:16:43.240 --> 00:16:46.000 encuentran patrones... Encuentra un patrón... 358 00:16:46.080 --> 00:16:48.960 A lo mejor tú ves tres mil millones de filas 359 00:16:49.040 --> 00:16:51.480 y una persona no es capaz de encontrar esos patrones. 360 00:16:51.560 --> 00:16:53.400 Pero un algoritmo te puede decir, mira, 361 00:16:53.480 --> 00:16:56.800 si has tenido esta enfermedad previa y estás tomando esta medicación 362 00:16:56.880 --> 00:17:00.480 y vives en esta zona que tiene una determinada contaminación, 363 00:17:00.560 --> 00:17:05.440 es muy posible que puedas padecer este tipo de enfermedad. 364 00:17:05.520 --> 00:17:08.200 Si tuviéramos ese tipo de conocimiento, 365 00:17:08.280 --> 00:17:12.160 viene muy bien porque puedes hacer un screaning 366 00:17:12.240 --> 00:17:14.480 para hacer pruebas previas y poder 367 00:17:14.560 --> 00:17:19.520 diagnosticar de manera temprana algún tipo de enfermedades. 368 00:17:19.599 --> 00:17:23.640 Entonces la inteligencia artificial sería más o menos... 369 00:17:23.720 --> 00:17:25.240 Es el futuro inmediato, ¿no? 370 00:17:25.640 --> 00:17:27.520 Y el presente, sí. Y el presente. 371 00:17:27.599 --> 00:17:30.640 Sí, con aprendizaje automático 372 00:17:30.720 --> 00:17:33.760 casi todas estas cosas que parecen ciencia ficción. 373 00:17:33.840 --> 00:17:36.480 Los generadores de texto. Dices: "Escríbeme 374 00:17:36.560 --> 00:17:39.120 un texto de Caperucita Roja 375 00:17:39.200 --> 00:17:40.520 que está volando en globo". 376 00:17:40.600 --> 00:17:43.840 Y tú ves que lo escribe y está perfecto. 377 00:17:43.920 --> 00:17:46.680 O "gif hype pale" que es más o menos parecido, 378 00:17:46.760 --> 00:17:49.440 pero en lugar de generar texto como novelilla, 379 00:17:49.520 --> 00:17:51.840 te genera código de programa informático. 380 00:17:51.920 --> 00:17:53.680 Dices: "Quiero una función 381 00:17:53.760 --> 00:17:58.040 que reciba una lista de números y me haga 382 00:17:58.120 --> 00:18:00.120 algún cálculo complejo". 383 00:18:00.200 --> 00:18:03.840 Tú se lo dices de texto y te genera el código a partir 384 00:18:04.280 --> 00:18:06.360 de todo el código que ha ido procesando 385 00:18:06.440 --> 00:18:09.640 de los repositorios de la gente de los últimos 10, 20 años. 386 00:18:10.040 --> 00:18:11.600 Da un poco de miedo, ¿no? 387 00:18:12.080 --> 00:18:13.240 ¿Y si empieza a pensar 388 00:18:13.320 --> 00:18:15.360 por su cuenta en un momento determinado? 389 00:18:15.440 --> 00:18:18.880 Bueno, ahí ya entramos en temas más filosóficos, ¿no? 390 00:18:18.960 --> 00:18:22.440 ¿Qué significa pensar? ¿Sera consciente alguna vez? 391 00:18:22.520 --> 00:18:24.560 O sea, yo creo que por ahora lo que tenemos 392 00:18:24.640 --> 00:18:29.040 en el aprendizaje automático son modelos que aprenden. 393 00:18:29.120 --> 00:18:31.080 Y la manera que aprenden es como nosotros 394 00:18:31.160 --> 00:18:32.360 les decimos que aprendan. 395 00:18:32.440 --> 00:18:35.040 "Quiero que encuentres estos patrones de esta manera". 396 00:18:35.120 --> 00:18:38.000 Cada vez que te doy datos, encontraras unos patrones u otros. 397 00:18:38.080 --> 00:18:40.720 Pero la manera en la que aprenden no cambia. 398 00:18:41.160 --> 00:18:44.720 Y quizá lo más cercano a nosotros serían las redes neuronales. 399 00:18:45.120 --> 00:18:49.280 La idea que hay detrás es tratar de simular 400 00:18:49.360 --> 00:18:53.040 lo que hace el cerebro humano, pero obviamente en un ordenador. 401 00:18:53.360 --> 00:18:55.000 Se hacen neuronas artificiales, 402 00:18:55.360 --> 00:18:58.280 que son como cajitas que le llegan un montón de entradas. 403 00:18:58.680 --> 00:19:02.720 Y va aprendiendo: esta entrada es muy relevante, 404 00:19:02.800 --> 00:19:05.600 entonces la multiplico por número alto. 405 00:19:05.680 --> 00:19:08.840 Esta no me aporta mucha información, la trato de acercar a cero. 406 00:19:09.280 --> 00:19:13.240 Y si juntas, te haces una red neuronal 407 00:19:13.320 --> 00:19:16.400 L:4% muy grande, muy profunda y vas cambiando la topología, 408 00:19:16.480 --> 00:19:18.960 L:4% que es como están conectadas unas neuronas con otras 409 00:19:19.040 --> 00:19:22.080 L:4% van siempre hacia delante o hay algún tipo de retroalimentación 410 00:19:22.160 --> 00:19:24.480 o algunas neuronas se centran en algunos aspectos. 411 00:19:25.200 --> 00:19:28.000 Si lo haces muy grande, necesitas big data. 412 00:19:28.080 --> 00:19:30.200 No solo para alimentarla con muchos datos, 413 00:19:30.280 --> 00:19:32.120 sino porque el proceso que vas a tener 414 00:19:32.200 --> 00:19:33.720 que hacer es un cómputo enorme. 415 00:19:34.160 --> 00:19:37.880 Pero bueno, se puede llegar a hacer y gracias a eso tenemos... 416 00:19:38.480 --> 00:19:41.360 Que tú vayas al móvil y vayas a las fotos y das: 417 00:19:41.440 --> 00:19:44.360 "Quiero una foto en la que aparezca mi perro". 418 00:19:44.440 --> 00:19:46.600 Pones perro y te salen las fotos de un perro. 419 00:19:46.680 --> 00:19:50.960 Eso es gracias a este tipo de redes neuronales. 420 00:19:51.040 --> 00:19:53.320 Entonces realmente estamos ya en ello 421 00:19:53.400 --> 00:19:57.720 y seguramente irán apareciendo un montón de aplicaciones nuevas. 422 00:19:57.800 --> 00:19:59.320 Ha sido un verdadero placer. 423 00:19:59.400 --> 00:20:01.960 Muchísimas gracias por tu visita a "La Aventura" 424 00:20:02.040 --> 00:20:04.880 y muchísimas gracias por el libro. Muchas gracias. Un placer.