-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Clasificar textos en categorías (topic classification) #12
Comments
Como comento en #23, lo que hace gente como Vox es usar bloques fijos de 15 segundos. Podemos empezar por ahí para probar cómo de bien funciona la categorización (porque está claro que a nivel de sentencia va a ser imposible que acierte), y según lo que salga vemos. |
Tengo una primera versión de un modelo de clasificación en el repo
He hecho unas primeras pruebas usando el ejemplo de entrenamiento básico de Flair con los embeddings de BERT:
Y BERT + Flair:
Es poco entrenamiento, 10 epochs, menos de una hora en mi portátil, y llegamos a F1=0.6, que no es la hostia, pero bueno, es el principio. Aún hay muchas cosas que decidir de cara a optimizar esto:
La idea ahora sería:
|
Tenemos 40K artículos descargados de RTVE. Quitando los que no son en castellano y algunas categorías que no tienen sentido ("PLAYZ") o que son confusas ("Radio", "Televisión"), tenemos un corpus ahora de 31 276 artículos. Por empezar con lo más sencillo, vamos a entrenar al modelo para reconocer solo Noticias, Deportes y RTVE (novedades sobre RTVE en sí). Usando solo BERT, y una sola epoch, que ahora tarda casi una hora, alcanzamos ahora un F1 de 0.95, porque es mucho más sencillo:
Esto es "demasiado fácil", hay que añadir más detalle a las categorías, pero es suficientemente interesante como para probarlo con los datos reales, las transcripciones de los Telediarios. |
Hemos estado un par de días haciendo pruebas varias para ver el rendimiento del entrenamiento de modelos en distintos entornos. Ahora que tenemos unas ideas básicas del coste de todo esto y de distintas opciones, la idea es seguir mejorando el modelo y aplicándolo a lo que realmente queremos clasificar: los subtítulos. |
Buenas @dcabo . Veo que lo que habéis llamado en esta issue "Topic Modelling" es más bien una clasificación por categorías. Sin embargo, creo que en lo que consiste formalmente el Topic Modelling también podría ser de interés en este proyecto. De hecho se suele usar cuando no tienes un conjunto de categorías predefinidas para la clasificación o cuando quieres ver como se agrupan semánticamente los términos en tu corpus de texto. En python hay una librería clásica que se llama gensim con la que se puede experimentar de forma relativamente sencilla. Os dejo un enlace a un post en el que lo usan para que tengáis un ejemplo de lo que se puede obtener a partir de un proceso de Topic Modelling: https://medium.com/@armandj.olivares/topic-modeling-on-spanish-text-f7a5e998fb90 Si lo veis de interés os podría ayudar a montar esto. |
@rafaharo en efecto, inicialmente yo -novato en PLN- lo llamaba a todo "topic modelling", así en general. Luego, pensando, y viendo que iba a ser más útil clasificar en función de categorías pre-existentes (las que usan los periodistas en general, y los que publican en la web de RTVE en particular), vi que era más correcto decir "topic classification". Yo estoy de viaje el resto de la semana, pero en cuanto tenga un momento publico los datos originales en crudo para que haya un corpus sobre el que trabajar, y me leo el artículo que enlazas. Mi miedo -sin haberlo leido- es que salgan clusters que no sean fácilmente "entendibles". Cuando lo lea te digo. |
Tu miedo (@dcabo ) es totalmente cierto. No he conocido a nadie que utilice LDA y le salgan unos temas (listas de palabras) intuitivos de agrupar... |
Hace casi tres años trabaje con LDA estos temas, percisamente con gensim. Se crearon modelos y con los que se consiguieron tasas entorno 60% para un conjuntos de textos cientificos. El ajuste de los parámetros de LDA se hizo por tanteo con el conjunto de muestras que se disponia =) |
Es un experimento relativamente sencillo de llevar a cabo en plan baseline y puede dar resultados interesantes. Igualmente aunque no sea para clasificar te puede servir para otras tareas como agrupación. |
Comentar aquí (porque es el issue más popular y le llega a distinta gente) que he publicado una primera versión del corpus con todo el contenido en #96. (Tengo pendiente además abrir el código que descargar y parte los subtítulos, en #95.) En unos días haremos esto más oficial, subiremos los datos a la web de Datos Civio y tal, pero quería avisaros aquí por si alguno tenéis comentarios para que sea más útil. Si tenéis sugerencias / peticiones / dudas, hacedlas en #96 please, y veo si son factibles. |
Queremos clasificar cada bloque de texto en categorías, en función de su contenido.
En este punto no tenemos del todo claro la granularidad de la clasificación: es decir, ¿queremos decir simplemente "política" y "deporte", o queremos/podemos decir "caso Gürtel" y "Champions League"/"fútbol"? En teoría parecería que cuanto más detalle mejor, pero es posible que llegar a ese nivel requiera hacer cosas más elaboradas, como sacar la lista de etiquetas de la web de RTVE. Para empezar, lo mejor parece hacer unas primeras pruebas clasificando por áreas generales y luego vamos viendo.
Hay una cierta inter-dependencia entre esto y lo de la segmentación de la transcripción (#7): para que el topic modelling funcione bien es posible que haga falta tener bloques medianamente extensos, pero a la vez es posible que la segmentación funcione mejor si podemos clasificar los fragmentos (si dos fragmentos hablan del mismo tema los podemos unir). No sabemos aún cual es la mejor forma de organizar esto, hay que hacer pruebas.
Algunos enlaces sobre creación de modelos de clasificación en Flair:
The text was updated successfully, but these errors were encountered: