Ves al contingut principal

Google, Yahoo, etc…. “de la Misa el 4%”. Deep Web

Estamos convencidos que tenemos acceso a toda la información mediante el uso de Google y otros buscadores y no es así, por mucho. Los estudios demuestran que sólo accedemos al 4% de la información disponible en la red.

Buscar en el Internet hoy en día se puede comparar con una red de arrastre a través de la superficie del océano. Mientras que una gran cantidad de información se pierde porque navega en aguas más profundas. 

La razón es simple: la mayoría de la información de la Web está enterrada en sitios muy ocultos, Bases de datos encriptadas, sites muy dificiles de localizar y que los motores de búsqueda estándar nunca encuentran.


En este post he recopilado lo que se dice por la red sobre este tema:

Según un artículo de Wikipedia  “En el año 2000 se estimaba que el tamaño del Internet Profundo era de 7.500 Terabytes de datos en unos 550.000 millones de documentos. Para comparar se estima que en aquella época la Internet superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3.000 Terabytes que no eran accesibles por los motores de búsqueda.
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente el Internet Profundo debe tener unos 91.000 TeraBytes.
Aproximadamente el 96% de toda la información que existe en Internet está sin indexar por ningún buscador.
Los algoritmos usado por los buscadores, Google y todos los demás, no son perfectos, además del hecho de que existen bases de datos y páginas dinámicas, que limitan su capacidad de indexación. No pueden indexar toda la información y además es imposible hacerlo.
Lo más importante de la Internet Profunda es que en su mayor parte está constituida por bases de datos muy especializadas con contenidos de alta calidad y en muchos casos para acceder a las más  profundas fosas Dark, los navegadores o browsers que usamos (Firefox, Chrome, IE, etc )  no están diseñados para permitir el acceso a este tipo de urls, que suelen contener información financiera o directamente delictiva.
Bucear en la Web oscura ( Dark Web) es como ir a un inframundo donde encuentras
documentos confidenciales (  Wikileaks, documentos de estado, casos de ovnis, experimentación humana, etc) - Mercado negro (armas, drogas, etc) -  Servicios de hacking. - Mucha piratería. - Videos, imagenes y documentos baneados de la web normal.-  Contratación de sicarios, asesinos, espías, etc.-  Tráfico de organos, animales, personas.- Pedofilia, necrofilia , etc .. Pero para esto debes tener toda la intención del mundo en entrar, no es fácil. Para entrar necesitas programas que garantizen tu anonimato proporcionandote una IP falsa como es TOR.


VIAJE AL INFIERNO DARK 

Existen niveles:
NIVEL 1. En este nivel encontramos páginas independientes, foros de todo tipo y páginas pornográficas.
NIVEL 2. Aquí abundan los buscadores de información independientes como emule o ares además de encontrarnos con contenido visual de moral laxa.
NIVEL 3. En el nivel 3 encontramos información y servicios de lo más macabros: prostitución y pornografía infantil, mercado de armas y drogas duras, contratación de asesinos a sueldo, canibalismo, mutilación genital, etc…
NIVEL 4. Aquí abundan los hackers informáticos. No me refiero a simples aficionados que se dedican a infectar PC’s, sinó a auténticos piratas informáticos.
NIVEL 5. En este nivel se encuentran los secretos militares 
NIVEL 6. Es un nivel solo apto para los hackers mejor preparados. Aquí se encuentra la DataBase. Es una sección en la que toda la información de DarkWeb deja ser un código binario en 0 y 1

Si, en las profundidades de la Dark web se puede encontrar de todo, especialmente el lado más oscuro de la mente humana y perversa, En la Deep Web  hay cosas buenas, como la investigación científica y tecnológica, las bibliotecas digitales, bases de datos, material de las universidades, informes de estudios científicos recientes etc
En la Deep WEB hay de todo, como en botica, pero abundan contenidos de alta calidad, en esta línea adjunto una serie de enlaces muy interesantes.
Es de destacar el proyecto BrightPlanet  que utiliza una tecnología orientada al aprovechamiento de la Web profunda llevando sus resultados a la superficie, así como el Libro Blanco de la Internet Profunda publicado hace años en JEP The Journal off electronic publishing

¿Como bucear en esta Deep Web y no ahogarse?
Adjunto una serie de herramientas que ha publicado Ramon Archanco, sobre una Internet no tan visible, aunque no oculta.

Recursos científicos de la Internet profunda o Internet invisible
La web del conocimiento: es una de las mayores bases de datos de citas del mundo con mas de 54 millones de registros
Elseiver: es un repositorio con mas de 2000 revistas de medicina y salud
Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
Pubmed: es el motor de búsqueda de medline. Contiene mas de 22 millones de documentos de investigación en biomedicina
Ingenta: contiene revistas de mas de 12.000 publicaciones
Us PTO: es un buscador de patentes y marcas de Estados Unidos de América
Espacenet: es un buscador de patentes de los países Europeos
Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de países de Latinoamérica, España y Portugal

Recursos estadísticos de la Internet profunda o Internet invisible
Eurostat: fuente estadística de todos los países europeos
Usa.gov: fuente estadística de EEUU.

Recursos sobre datos financieros de la Internet profunda o Internet invisible
Bureau Van Dijk: bases de datos de los registros mercantiles de paises de la OCDE
Duns and Bradstreet: informes financieros de todas las empresas del mundo
e-informa y Axesor: datos financieros de empresas españolas y listados de marketing.

Recursos de comercio internacional de la Internet profunda o Internet invisible
Comtrade: base de datos de la ONU sobre datos de import-export y códigos HS
Cameradata: base de datos española sobre los daos de importación y exportación
Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.

Recursos sobre legislación de la Internet profunda o Internet invisible
Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
FDA: es la agencia de alimentación de EEUU aqui puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.
De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web profunda que tardan en llegar al dominio público.

     Otros recursos de la web invisible
Aquí deberíamos hablar de varias herramientas como:
Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con mas de 70.000 bases de datos y recursos
Infomine: un recurso de la universidad de california que cuenta con mas de 100.000 enlaces a otras bases de datos
Scirus: es un metabuscador científico especializado en institutos y universidades de investigación.

Gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.

Aunque también, como hemos visto, podemos encontrar recursos valiosos para la empresa. A parte de estos tres recursos puedes echar un vistazo a esta breve recopilación de Ernesto Marrero de puertas de entrada a la Internet profunda.

También te recomiendo que utilices OJOSE para lanzar una búsqueda simultanea en varios de estos servicios.

Albert Pérez Novell

Comentaris

Entrades populars d'aquest blog

En Catalunya todos somos Gary Cooper

¿Qué iluso pensaba que Europa iba a acompañar a Catalunya en este proceso?
Europa es un club de Estados que no solo no nos ayudará, sino que no mediará, ni facilitará la mediación. No esperemos nada hoy del parlamento europeo dominado por el grupo popular.

Debemos tener claro, que vivimos en un entramado (sistema) económico, donde los Estados asumen un control directo de la administración social, al dictado de los mercados y estos actúan según índices de las Agencias de Calificación. Creer que, en este entorno, hay espacio para que obtengamos ayuda en nuestro proceso, es leer mal la historia y el contexto. Es bueno recordar lo que nos contaba Bauman sobre el huevo de la serpiente: “la cara oculta de la sociedad en la que vivimos, se manifiesta en contadísimas ocasiones pero, cuando lo hace, deja desenmascarada la violencia y demás aspectos negativos que han sido utilizados, al mismo tiempo, a lo largo de la historia para la formación de la propia estructura social” .

No quiere decir que d…

Un sector fracasado

El volumen de libros almacenados en España procedentes de devoluciones equivale a más de dos terceras partes del volumen de la nave central de la basílica de San Pedro del Vaticano.
Es insostenible que en pleno siglo XXI (llevamos, aunque no los parezca, 16 años en él) en el sector del libro se perpetúen situaciones como que los almacenes tengan prácticamente sin rotación más de un 60% de sus existencias, los retornos continúen siendo superiores al 50 % o que todavía haya librerías que hagan sus pedidos por teléfono.
Como indican los informes del propio sector y destaca Manuel Gil en su blog de referencia: “El gap entre libros producidos y vendidos es de unos 100 millones anuales en España… El cálculo que hace unos días contrastaba con otros consultores es que hoy se puede almacenar una cifra cercana a los 700 millones de ejemplares”. Lo que equivale a un volumen de libros igual a más de dos terceras partes del volumen de la nave central de la basílica de San Pedro del Vaticano.
En este …

El negocio de la librería = a fracaso, ¿por qué?

Cuando entramos en un negocio, sea librería, restaurante, tienda de moda sabemos o intuimos  de antemano si están condenados al fracaso o no.
Yo reconozco fácilmente que librería cerrará en 1, 2 o tres años y aquella que, no sólo no cerrará, sino que se enfrenta a un brillante futuro.
Ese es el sentido quiero exponer modelos reales de éxito como el que emprendieron  hace unos 5 años Jeff Mayersohn y su esposa  Linda Seamonson , al comprar y reconvertir el modelo de la vieja libreríaHarvard de Cambridge,  ciudad donde cierran más librerías que Starbucks se abren en China. (situación: 1256 Massachusetts Avenue Cambridge, MA 02138).
Jeff Mayershon amante apasionado de los libros ha sido cliente de Harvard durante 30 años, recientemente retirado del mundo de la tecnología él y su esposa Linda se embarcaron en esta locura. ¡¡¡Comprar una librería!!!
Jeff y Linda, ingenuamente optimistas, se embarcaron en esta aventura en estos días oscuros de  recesión, a la sombra de Amazon, y con los libros …