unknown
2014-07-30 07:25:59 UTC
Hola a todos.
Estoy intentando extraer información de imágenes de un código html (
http://en.wikipedia.org/wiki/Data_URI_scheme)
El formato sería el siguiente:
<img src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
AAALEgAACxIB0t1+/AAA" />
Me interesa extraer la extensión de la imagen (png en el anterior
ejemplo) y los datos que vienen después de 'base64,' hasta el cierre
de comillas '"', es decir,
'iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
AAALEgAACxIB0t1+/AAA'.
Tengo un ejemplo aquí,
https://gist.github.com/anonymous/75ab61f586c19e767cf0, pero estoy
seguro de que mi regex me va a fallar en cuanto encuentre alguna cosa
más rara.
¿Alguien me podría indicar si el regex vale o si debería modificarlo
para que no me dé falsos positivos o acepte falsos negativos?
Muchas gracias por adelantado.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20140730/84a15b55/attachment.html>
Estoy intentando extraer información de imágenes de un código html (
http://en.wikipedia.org/wiki/Data_URI_scheme)
El formato sería el siguiente:
<img src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
AAALEgAACxIB0t1+/AAA" />
Me interesa extraer la extensión de la imagen (png en el anterior
ejemplo) y los datos que vienen después de 'base64,' hasta el cierre
de comillas '"', es decir,
'iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
AAALEgAACxIB0t1+/AAA'.
Tengo un ejemplo aquí,
https://gist.github.com/anonymous/75ab61f586c19e767cf0, pero estoy
seguro de que mi regex me va a fallar en cuanto encuentre alguna cosa
más rara.
¿Alguien me podría indicar si el regex vale o si debería modificarlo
para que no me dé falsos positivos o acepte falsos negativos?
Muchas gracias por adelantado.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20140730/84a15b55/attachment.html>