{"id":2774,"date":"2022-08-13T20:08:27","date_gmt":"2022-08-13T20:08:27","guid":{"rendered":"https:\/\/pcyti.izt.uam.mx\/?p=2774"},"modified":"2022-08-13T20:08:27","modified_gmt":"2022-08-13T20:08:27","slug":"desarrollo-de-un-rastreador-web-capaz-de-aprender-a-identificar-la-informacion-mas-relevante","status":"publish","type":"post","link":"https:\/\/pcyti.izt.uam.mx\/?p=2774","title":{"rendered":"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/pcyti.izt.uam.mx\/wordpress\/wp-content\/uploads\/Desarrollo-de-un-rastreador-web-capaz-de-aprender-a-identificar-la-informaci%C3%B3n-m%C3%A1s-relevante.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">&nbsp;Descargar versi\u00f3n PDF<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Profesores<\/strong>:&nbsp;<a href=\"https:\/\/pcyti.izt.uam.mx\/wordpress\/?page_id=198&amp;SingleProduct=179\">Dr.&nbsp;Ricardo Marcel\u00edn Jim\u00e9nez<\/a>&nbsp;y&nbsp;<a href=\"https:\/\/pcyti.izt.uam.mx\/wordpress\/?page_id=211&amp;SingleProduct=27\">Orlando Mu\u00f1oz Texzocotetla<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Resumen<\/strong>:&nbsp;Un rastreador o explorador web (tambi\u00e9n llamado \u201cara\u00f1a\u201d o robot) es un programa que permite descargar y clasificar el contenido de paginas en la web. Entre sus m\u00faltiples aplicaciones, se les usa como el componente principal de los motores de b\u00fasqueda en la web, sistemas que re\u00fane un corpus de p\u00e1ginas electr\u00f3nicas, las indexan y permiten las consultas de un amplio contenido tem\u00e1tico. Una segunda aplicaci\u00f3n es para el archivado de la web, que consiste en la descarga de paginas que son guardadas para la posteridad. Una tercera aplicaci\u00f3n es para la miner\u00eda de datos de la web, en la que se analizan estad\u00edsticamente las p\u00e1ginas descargadas. Finalmente, podemos mencionar los servicios de monitoreo en la web, en los que se disparan alarmas cuando la b\u00fasqueda empata con cierto contenido disponible en la red. Actualmente la investigaci\u00f3n de los algoritmos de rastreo web (<em>crawling algorithms<\/em>) es de gran importancia debido al enorme crecimiento de la informaci\u00f3n contenida en la web, y a que \u00e9sta no se encuentra almacenada en un servidor centralizado, sino en una federaci\u00f3n de cientos de millones de repositorios articulados mediante un conjunto de protocolos, reglas de acceso y formatos de datos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Objetivo&nbsp;general<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Construir un rastreador o explorador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante en las p\u00e1ginas web.<\/li><\/ul>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Objetivos espec\u00edficos<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Estudiar las arquitectura y caracter\u0131sticas b\u00e1sicas de un rastreador Web.<\/li><li>Estudiar las t\u00e9cnicas de aprendizaje maquinal (que ser\u00e1n utilizadas por el rastreador que ser\u00e1 construido).<\/li><li>Dise\u00f1ar el rastreador web (incluyendo las t\u00e9cnicas de aprendizaje maquinal estudiadas).<\/li><li>Implementar el rastreador propuesto y evaluar sus prestaciones<\/li><\/ul>\n","protected":false},"excerpt":{"rendered":"<p>&nbsp;Descargar versi\u00f3n PDF Profesores:&nbsp;Dr.&nbsp;Ricardo Marcel\u00edn Jim\u00e9nez&nbsp;y&nbsp;Orlando Mu\u00f1oz Texzocotetla Resumen:&nbsp;Un rastreador o explorador web (tambi\u00e9n llamado \u201cara\u00f1a\u201d o robot) es un programa que permite descargar y clasificar el contenido de paginas en la web. Entre sus m\u00faltiples aplicaciones, se les usa como el componente principal de los motores de b\u00fasqueda en la web, sistemas que re\u00fane<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","footnotes":""},"categories":[80],"tags":[],"class_list":["post-2774","post","type-post","status-publish","format-standard","hentry","category-80"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.7 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante - Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/pcyti.izt.uam.mx\/?p=2774\" \/>\n<meta property=\"og:locale\" content=\"es_MX\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante - Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n\" \/>\n<meta property=\"og:description\" content=\"&nbsp;Descargar versi\u00f3n PDF Profesores:&nbsp;Dr.&nbsp;Ricardo Marcel\u00edn Jim\u00e9nez&nbsp;y&nbsp;Orlando Mu\u00f1oz Texzocotetla Resumen:&nbsp;Un rastreador o explorador web (tambi\u00e9n llamado \u201cara\u00f1a\u201d o robot) es un programa que permite descargar y clasificar el contenido de paginas en la web. Entre sus m\u00faltiples aplicaciones, se les usa como el componente principal de los motores de b\u00fasqueda en la web, sistemas que re\u00fane\" \/>\n<meta property=\"og:url\" content=\"https:\/\/pcyti.izt.uam.mx\/?p=2774\" \/>\n<meta property=\"og:site_name\" content=\"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/pcyti\/\" \/>\n<meta property=\"article:published_time\" content=\"2022-08-13T20:08:27+00:00\" \/>\n<meta name=\"author\" content=\"pcyti\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"pcyti\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"2 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774\"},\"author\":{\"name\":\"pcyti\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#\\\/schema\\\/person\\\/9d093e256d84249d175f986d409d857d\"},\"headline\":\"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante\",\"datePublished\":\"2022-08-13T20:08:27+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774\"},\"wordCount\":329,\"publisher\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#organization\"},\"articleSection\":[\"2016\"],\"inLanguage\":\"es\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774\",\"url\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774\",\"name\":\"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante - Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#website\"},\"datePublished\":\"2022-08-13T20:08:27+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?p=2774#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Inicio\",\"item\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#website\",\"url\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/\",\"name\":\"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#organization\",\"name\":\"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n\",\"url\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/wp-content\\\/uploads\\\/2021\\\/12\\\/logo_pcyti_small.png\",\"contentUrl\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/wp-content\\\/uploads\\\/2021\\\/12\\\/logo_pcyti_small.png\",\"width\":71,\"height\":100,\"caption\":\"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n\"},\"image\":{\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/pcyti\\\/\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/#\\\/schema\\\/person\\\/9d093e256d84249d175f986d409d857d\",\"name\":\"pcyti\",\"url\":\"https:\\\/\\\/pcyti.izt.uam.mx\\\/?author=2\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante - Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/pcyti.izt.uam.mx\/?p=2774","og_locale":"es_MX","og_type":"article","og_title":"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante - Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n","og_description":"&nbsp;Descargar versi\u00f3n PDF Profesores:&nbsp;Dr.&nbsp;Ricardo Marcel\u00edn Jim\u00e9nez&nbsp;y&nbsp;Orlando Mu\u00f1oz Texzocotetla Resumen:&nbsp;Un rastreador o explorador web (tambi\u00e9n llamado \u201cara\u00f1a\u201d o robot) es un programa que permite descargar y clasificar el contenido de paginas en la web. Entre sus m\u00faltiples aplicaciones, se les usa como el componente principal de los motores de b\u00fasqueda en la web, sistemas que re\u00fane","og_url":"https:\/\/pcyti.izt.uam.mx\/?p=2774","og_site_name":"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n","article_publisher":"https:\/\/www.facebook.com\/pcyti\/","article_published_time":"2022-08-13T20:08:27+00:00","author":"pcyti","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"pcyti","Tiempo de lectura":"2 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/pcyti.izt.uam.mx\/?p=2774#article","isPartOf":{"@id":"https:\/\/pcyti.izt.uam.mx\/?p=2774"},"author":{"name":"pcyti","@id":"https:\/\/pcyti.izt.uam.mx\/#\/schema\/person\/9d093e256d84249d175f986d409d857d"},"headline":"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante","datePublished":"2022-08-13T20:08:27+00:00","mainEntityOfPage":{"@id":"https:\/\/pcyti.izt.uam.mx\/?p=2774"},"wordCount":329,"publisher":{"@id":"https:\/\/pcyti.izt.uam.mx\/#organization"},"articleSection":["2016"],"inLanguage":"es"},{"@type":"WebPage","@id":"https:\/\/pcyti.izt.uam.mx\/?p=2774","url":"https:\/\/pcyti.izt.uam.mx\/?p=2774","name":"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante - Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n","isPartOf":{"@id":"https:\/\/pcyti.izt.uam.mx\/#website"},"datePublished":"2022-08-13T20:08:27+00:00","breadcrumb":{"@id":"https:\/\/pcyti.izt.uam.mx\/?p=2774#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/pcyti.izt.uam.mx\/?p=2774"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/pcyti.izt.uam.mx\/?p=2774#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Inicio","item":"https:\/\/pcyti.izt.uam.mx\/"},{"@type":"ListItem","position":2,"name":"Desarrollo de un rastreador web capaz de aprender a identificar la informaci\u00f3n m\u00e1s relevante"}]},{"@type":"WebSite","@id":"https:\/\/pcyti.izt.uam.mx\/#website","url":"https:\/\/pcyti.izt.uam.mx\/","name":"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n","description":"","publisher":{"@id":"https:\/\/pcyti.izt.uam.mx\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/pcyti.izt.uam.mx\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/pcyti.izt.uam.mx\/#organization","name":"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n","url":"https:\/\/pcyti.izt.uam.mx\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/pcyti.izt.uam.mx\/#\/schema\/logo\/image\/","url":"https:\/\/pcyti.izt.uam.mx\/wp-content\/uploads\/2021\/12\/logo_pcyti_small.png","contentUrl":"https:\/\/pcyti.izt.uam.mx\/wp-content\/uploads\/2021\/12\/logo_pcyti_small.png","width":71,"height":100,"caption":"Posgrado en Ciencias y Tecnolog\u00edas de la Informaci\u00f3n"},"image":{"@id":"https:\/\/pcyti.izt.uam.mx\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/pcyti\/"]},{"@type":"Person","@id":"https:\/\/pcyti.izt.uam.mx\/#\/schema\/person\/9d093e256d84249d175f986d409d857d","name":"pcyti","url":"https:\/\/pcyti.izt.uam.mx\/?author=2"}]}},"modified_by":"pcyti","_links":{"self":[{"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=\/wp\/v2\/posts\/2774","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2774"}],"version-history":[{"count":0,"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=\/wp\/v2\/posts\/2774\/revisions"}],"wp:attachment":[{"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2774"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2774"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pcyti.izt.uam.mx\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2774"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}