Hemeroteca

Política de Cookies

Este blog utiliza cookies propias y de terceros para mejorar su experiencia de navegación. Si continúa navegando, consideramos que acepta su uso. Puede obtener más información en nuestra página de: Política de Cookies.

Soy ….

Soraya Cronista compulsiva. Periodista por vocación y de formación. Consultora NTIC por experiencia. Mi pasión es mi hija. Me gusta el café. Más sobre mí.

Mi Time Line en Twitter

RSSTwitterLinkedin
28 enero, 2013 Posted by sorayapa Publicado en MundoTech
sin comentarios

Common Crawl, datos gratuitos de cinco mil millones de páginas web

Fundación Common CrawlLa Fundación Common Crawl dispone de su propia araña web y ofrece gratuitamente los datos de cinco mil millones de páginas web. Más de 81 terabytes de información que puede ser descargada y procesada a través de Amazón Web Services. Se abren nuevas y apasionantes oportunidades de negocio así como la posibilidad de formar en Big Data sin grandes inversiones.

TinEye  es un buscador  que encuentra imágenes similares a las proporcionadas por  los usuarios.  Lucky Oyster es una herramienta para buscar información personalizada y relevante relacionada con las interacciones en las redes sociales (likes, pins, tags, etc). Wikientities utiliza los enlaces de Wikipedia (en los datos de rastreo)  para determinar el significado de las  palabras. Son tres ejemplos de proyectos que se gestaron usando Common Crawl y que sirven para ilustrar y comprender la transcendencia de esta nueva araña web capaz de realizar una copia gigante de toda la World Wide Web.

Gil Elbaz, fundador de Common CrawlEn 2007, Gil Elbaz fundó Common Crawl con el objetivo  de democratizar el acceso a la información de las páginas web. Elbaz es uno de los creadores de la tecnología AdSense de Google y el fundador de Factual. En la junta directiva de la fundación están Carl Malamud y Nova Spivack. En el consejo asesor destacan dos nombres, Peter Norvig director de investigación de Google y Joi Ito director del MIT Media Lab.

Common Crawl utiliza su propia araña web para rastrear e indexar miles de millones de páginas web y ofrecerlas de forma gratuita a ingenieros, científicos, desarrolladores, estudiantes o emprendedores. Según Elbaz esto significa que un investigador con un increíble algoritmo  o un empresario con una gran idea de app pueden realizar pruebas de concepto desde el primer día, no necesitan estar seis meses rastreando la web.

La visión de Common Crawl es que la web es  la colección más grande y diversa de información en la historia de la humanidad, y la web nos puede proporcionar conocimientos tremendos si llegamos a entenderla mejor. Por ejemplo, los datos de la web se pueden utilizar para detectar tendencias e identificar patrones en política, economía, salud o cultura popular. Proporciona un “corpus” inmensamente rico para la investigación científica, el progreso tecnológico y la innovación empresarial. Es crucial para nuestra sociedad que la web sea de acceso abierto. Como dice Elbaz:

«Estamos justo en la punta del iceberg en cuanto a la extracción de todo el conocimiento que está ahí, en los patrones, o que necesita ser descifrado o aprendido en este cuerpo increíble de conocimiento.»

Actualmente Common Crawl dispone de más de 81 terabytes de datos almacenados en Amazon Web Service. Por unos 25 dólares un programador puede crear una cuenta en Amazón y comenzar a “crujir” los datos de cinco mil millones de páginas web.

Pero más allá de las tremendas posibilidades de innovación y nuevos negocios, Elbaz subraya  la fantástica oportunidad que tienen los educadores de usar el  “corpus” de Common Crawl para formar sobre Big Data y también sobre Amazon Web Service  que, cada día con más fuerza, se está convirtiendo en una habilidad necesaria:

«Es más fácil enseñar Big Data si dispones de grandes volúmenes de datos accesibles. Hoy en día, la mayoría de los estudiantes no están adquiriendo estas habilidades en la universidad debido a la escasez de experiencia en esta área. Es realmente difícil encontrar expertos”

Con respecto a Amazón, Elbaz considera que los desarrolladores ya se están acostumbrando a  la gran velocidad de respuesta de la infraestructura Hadoop:

“A medida que las empresas se acostumbren a la idea de comenzar estos trabajos utilizando diferentes bibliotecas que giran automáticamente  en un centenar de máquinas de Amazon, los desarrolladores se acostumbrarán  al hecho de que si lo haces de esa manera la respuesta vuelve cien veces más rápido una vez que se está utilizando la infraestructura Hadoop. Si los datos ya están en un clúster de Amazon no tienes que esperar a que los datos pasen de un centro de datos a otro”.

Les dejo una entrevista  a Gil Elbaz y Nova Spivack en This Week In:

[vsw id=»cjtZW6hR_o0″ source=»youtube» width=»425″ height=»344″ autoplay=»no»]

He escrito este artículo con  información de:

Contestar

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


  • Responsable: Soraya Paniagua Amador
  • Fin del tratamiento: controlar el SPAM, gestión de comentarios.
  • Legitimación: tu consentimiento
  • Comunicación de datos: no se comunicarán los datos a terceros salvo por obligación legal.
  • Derechos: acceso, rectificación, portabilidad, olvido
  • Contacto: spamador@gmail.com
  • Información adicional: más información en nuestra Política de Privacidad.