Posts Tagged ‘motores de búsqueda’

El negocio 90-10 de los motores de búsqueda

Viernes, Octubre 3rd, 2008

 Hace unas semanas Marissa Mayer (Vicepresidente de Productos Búsquedas de Google) comentó en un artículo del LA Times que el 90% del problema de búsqueda estaba resuelto y que ahora había que concentrarse en el 10% restante. A simple vista se pudiera pensar que ya no hay mucho que hacer, sin embargo aclarando el punto en el Official Google Blog: The future of search las cosas se ponen más claras. Si bien el 90% está hecho, esto ha representado sólo el 10% del total de trabajo; para terminar el otro 10% habrá que dedicarle el 90% de esfuerzo que han hace falta dedicar. Esto es similar al común 80-20 que muchas veces usamos en la resolución de problemas de acuerdo a Techcrunch pero en este caso, “Search” es un problema 90-10. Y creo que si lo analizamos tiene mucho sentido. Google se ha tomado el tiempo para indexar mucho del contenido en el Internet, sin embargo este proceso ha sido mucha fuerza bruta de cientos de miles de CPUs buscando páginas web, contando y guardando las palabras y sus posiciones en el texto, buscando ligas que liguen a otros documentos, “rankeando” páginas, etc. Esto es sencillo desde el punto de vista máquina, no se necesita mucha inteligencia para hacer este proceso, más que nada se necesita tiempo, dinero, ancho de banda y mucho tiempo de CPU. Pero para poder encontrar el significado de una página y su contexto más allá de las palabras que contiene se necesita algo más que las máquinas no tienen. 

Para encontrar ese significado semántico se requieren muchas cosas, entre ellas ponerse de acuerdo de como hacerle para que una página web diga más y las tontas máquinas puedan ejecutar algoritmos tratando de interpretar esa información. Algunas cosas se han hecho con microformatos y RDF (Resource Description Framework) pero aún falta mucho camino que recorrer en estandarización. Otros problemas con un mayor grado de dificultad serán las búsquedas en medios; por ejemplo en video, en audio o en imágenes. Si bien las etiquetas o microformatos pueden ayudar puede que resuelvan solo el 10% del problema. Por ejemplo, que tal buscar “escena de película de ciencia ficción donde el villano le confiesa al héroe que es su padre” (si, creo que el ejemplo fue un poco tonto pero es de madrugada y no se me ocurre algo más). Esto me recuerda al “experimento” de Picassa (el servicio de fotos de google) que te permite etiquetar caras de personas para que después automáticamente Picassa identifique a las personas. Si bien por el momento es asistido, imaginen lo que se hará dentro de poco usando esos patrones para encontrar personas (junto con fotografías, bio y videos) en el Internet. 

Auguro buenos tiempos para desarrollos tecnológicos en el área de motores de búsquedas en la parte semántica, geográfica, medios y procesamiento de lenguaje entre otras áreas, lo que si es que cada día la barrera de entrada será mayor por el grado de dificultad que requerirá resolver un problema. Y bueno, esperamos que no se vuelva un negocio de pocos.

 Nota: Este post originalmente apareció aquí

Noticias semanales en 45 segundos

Lunes, Enero 28th, 2008

Noticias semanales en 45 segundos

Enero 28, 2008

Después de un rato de ausencia regreso con los 45 segundos semanales de noticias.
Para comenzar algunas noticas provenientes del foro de los reales gobernantes del mundo en Davos:

  • Bill Gates hace un llamado por un capitalismo “más buena onda” en el cual los ricos dejen de explotar a los pobres como lo han hecho hasta ahora. Suena bien aunque va en contra de la naturaleza humana. Y como algunos dicen es fácil decirlo después de que eres la persona más rica del mundo (o la segunda dependiendo de quien lleve la cuenta) (0:10)
  • Y en lo que pudiera haber sido un punto de quiebre para los periódicos en línea, Rupert Murdoch dice que el Wall Street Journal seguirá siendo un servicio de suscripción. Así que el modelo de pago por subscripción sigue en pie. Supongo que Murdoch tiene buenos analistas que ven una recesión en EUA y con ella una desaceleración en el mercado de anuncios en línea. (0:21)
  • Robert Scobble (reportero profesional y blogger) hizo y envío entrevistas en tiempo real desde Davos usando un teléfono celular Nokia N95 (0:27)

Pasando a otras cosas en la Digital Life Design Conferrence (DLD) de Alemania Jason Calacanis y Jimmy Wales hablan de cómo los humanos pueden ser crear motores de búsqueda. En un post anterior hablé un poco sobre Search Wikia y como las críticas fueron un poco excesivas en lo negativo. El video de la conferencia y la transcripción. Yo en lo personal tengo dudas que solo humanos y solo máquinas puedan ser usadas para búsquedas efectivas, el futuro según mi opinión será una mezcla de ambas para cierto nicho y para el “montón” serán las máquinas las que hagan el mejor trabajo. (0:39)

Los ataques de negación de servicio distribuida (DDoS) que supuestamente hizo Rusia a Estonia como parte de una ciberguerra resultó que fueron hechos por un estudiante inconforme con el gobierno de su país por remover una estatua. La versión yo aún no la creo 100%. (0:45)

Arañas, humanos y motores de búsqueda

Lunes, Enero 7th, 2008

Hoy en la mañana leía uno de mis mensajes en twitter el review de Jason Calacanis (fundador de Mahalo) acerca de search.wikia (fundada por Jimmy Wales de Wikipedia). En su post Jason C. está de acuerdo con Michael Arrington (de Techcrunch) de que search.wikia dejaba mucho que desear. Curioso leí el reporte de Techcrunch y después decidí echarle un ojo. Como uno de mis temas que estoy investigando en estos días es “Reinforcement Learning” decidí usarlo para ver que resultados me arrojaban diversos motores de búsqueda. Los motores que use fueron (pueden ver los resultados haciendo click al link):
Google
Yahoo!
Mahalo
Del.icio.us
Chacha
Clusty
Search Wikia

Todos y cada uno de ellos me arrojó buenos resultados y fáciles de seguir, excepto para sorpresa mía … Mahalo. Si bien Mahalo te arroja una ventana donde puedes hacer una meta-búsqueda en Google, Yahoo!, Wikipedia, Ask, etc. el resultado inicial fue no encontrar el término en su base de datos. No tuve mucho tiempo para checar más resultados con otros términos, sin embargo mi opinión acerca de los motores de búsqueda sigue siendo la misma:

No veo mucha diferencia entre los resultados de unos u otros.

Sin embargo me gusta la simpleza de Google (y ahora de Search Wikia), el buscar que otros bookmarks tiene gente con intereses similares a los míos en Delicious y la meta-búsqueda de Clusty, que además agrupa de forma muy interesante los resultados.

Internet en México. Parte II de al menos 2

Miércoles, Diciembre 12th, 2007

Continuando con el análisis del uso del Internet en México, estos son otros datos que encontré interesantes. La mayoría de los datos provienen de la encuesta de la AMIPCI. El restante viene de fuentes diversas como el INEGI, ISI Emerging Markets, AMPI, periódicos en línea y blogs. Los detalles de las fuentes en un post anterior.

  • 67% ha subido un video o foto (27% Youtube, 21% Yahoo, 2% Flickr). Interesante que no aparece el Pirate Bay o alguno de los sitios de Torrents.
  • Empleos pérdidos “por piratería” en Internet (de acuerdo al IMPI y a Amprofon). Me pregunto cuantos son realmente por la baja calidad de la música y las películas en México y cuantos por el sobre estimado de precio que nos cobran por adquirirlos.
  • 17 millones de canciones se bajan ilegalmente a la semana. 50% de éstas son en cibercafés. Y como preguntan en Cofradia.org, ¿Cómo lo medirán?
  • 2 mil 620 millones de canciones y 185 millones de videos se han subido ilegalmente en el 2007. Diariamente, 2.5 millones de canciones y videos se descargan ilegalmente en cibercafés de todo México (de acuerdo a director general del IMPI, Jorge Amigo Castañeda). Sorprendente el método de cuantificación, ni la RIAA o la MPAA tienen tan buenos datos (<– Sarcasmo). Y eso que tienen Media Defender.
  • 57% Tiene página personal (Hi5 19%, Geocities 14%, Myspace 34%). Esto además deja ver que en México las redes sociales están adquiriendo atención. Esto lo deduzco a que Geocities (Web 1.0 si queremos verlo de alguna forma) tiene mucho menor base de usuarios que MySpace y Hi5.
  • 66% conoce el concepto de red social. Y de acuerdo al punto anterior al menos 53% las usa.
  • 44% ha participado en foros de discusión
  • 77% ha leído al menos una vez un blog. - Espero que algunos de éstos leean el mío -.
  • 38% tiene un blog. - ¡Hey! Yo soy uno de éstos -.
  • 85% usa Google como motor de búsqueda (8% Yahoo, 5% MSN). Si alguien está tentado a probar otros motores de búsqueda puede visitar este link. También pueden visitar mi colección en delicious.
  • 92% considera a Internet un medio indispensable. 81% cree que el teléfono celular es indispensable y un 60% consiera que la TV (60%) lo es.

En el próximo comentario presentaré algunos datos interesantes sobre el uso de herramientas de comunicación en Internet.