Obtener un Listado de Dominios GOB.PE desde Google

  • Posted on: 24 January 2019
  • By: ReYDeS

El motor de búsqueda Google permite realizar búsquedas complejas o avanzadas, esto utilizando sus directivas y operadores. Estos permiten afinar las búsquedas y sus correspondientes resultados. Existe un termino en idioma inglés “Google Hacking”, el cual es un termino acuñado para expresar la capacidad de utilizar el motor de búsqueda Google en al ámbito del Hacking Ético, siendo factible de esta manera encontrar archivos conteniendo nombres de usuarios, directorios sensibles, servidores vulnerables, páginas conteniendo portales de login, entre otra gran diversidad de información relevante para el ámbito de la seguridad.

El propósito del procedimiento a continuación detallado, es obtener un listado de todos los dominios “gob.pe”, es decir los dominios de páginas relacionadas al gobierno de la república del Perú, los cuales han sido indexados por el motor de búsqueda Google.

Las páginas conteniendo los resultados devueltos por Google, ya han sido descargadas y guardadas. Mencionar también, Google es poco amigable cuando se trata de automatizar las búsquedas, presentando sus mensajes los cuales versan sobre haber detectado tráfico inadecuado, y consecuentemente solicitando resolver un captcha.

La búsqueda utiliza directiva “site” del motor de búsqueda Google; esta directiva permite restringir los resultados a un dominio; esto es seguido de la cadena de texto “gob.pe”.

site:gob.pe

Los resultados presentados por el motor de búsqueda Google, cumplen el criterio requerido.

Se guardaron los resultados en cuatro archivos de extensión html. Pero dado el hecho facilita el procedimiento utilizar archivos en texto en lugar de archivos con fuente html, se utiliza el comando “w3m”. Este comando es un navegador web basado en texto y un paginador, consecuentemente es factible utilizarlo para interpretar fuente html y convertirlo a su respectiva representación textual.

# w3m gobpe0[1-4].html >gobpe.txt

El archivo de nombre “gobpe.txt”, contiene todos los resultados guardados en un único archivo de texto interpretado.

Se ejecuta el primer comando para obtener todas las lineas conteniendo la cadena de texto “.gob.pe”.

# grep “\.gob.pe” gobpe.txt

Se eliminan de todas las líneas la cadena de texto “https://”. Con el propósito de únicamente obtener dominios o subdominios.

# grep “\.gob.pe” gobpe.txt | sed -e ‘s/https:\/\///’

Lo siguiente es únicamente obtener las líneas sin un símbolo “/” al final de la misma. Para esto se utiliza el comando “cut”.

# grep “\.gob.pe” gobpe.txt | sed -e ‘s/https:\/\///’

Se procede a ordenar y eliminar las líneas duplicadas, utilizando los comandos “sort” y “uniq”.

# grep “\.gob.pe” gobpe.txt | sed -e ‘s/https:\/\///’ | cut -d “/” -f 1 | sort | uniq

Dado el hecho en los resultados aún se encuentran líneas con espacios en blanco, el símbolo arroba, o el símbolo dos puntos, se utiliza nuevamente el comando grep de manera inversa, para mostrar las líneas no conteniendo estos criterios.

# grep “\.gob.pe” gobpe.txt | sed -e ‘s/https:\/\///’ | cut -d “/” -f 1 | sort | uniq | grep -v “@” | grep -v “>” | grep -v “:”

Finalmente se obtiene un listado de todos los dominios y subdominios indexados por el motor de búsqueda Google. El resultado del anterior comando se guarda en el archivo de nombre “google_gob_pe”.

# column google_gob_pe

Con esta información se pueden aplicar diversas técnicas correspondientes a la etapa de reconocimiento o captura de información de Hacking Ético o Pruebas de Penetración.

Recordar nuevamente, Google no es muy amigable cuando se detecta tráfico peculiar. Se sugiere tener cautela.


Fuentes:

https://support.google.com/websearch/answer/35890?hl=en
https://www.google.com/advanced_search
https://www.exploit-db.com/google-hacking-database

Sobre el Autor


Alonso Eduardo Caballero Quezada - ReYDeS
Instructor y Consultor Independiente en Ciberseguridad
Correo Electrónico: ReYDeS@gmail.com
Twitter: https://twitter.com/Alonso_ReYDeS
LinkedIn: https://pe.linkedin.com/in/alonsocaballeroquezada/
Facebook: https://www.facebook.com/alonsoreydes
Youtube: https://www.youtube.com/c/AlonsoCaballero


Webinar Informática Forense