Comentarios de Instagram extraídos a una base no-relacional para uso en Tecnologías del Lenguaje Humano

César Espin-Riofrio, Verónica Mendoza-Morán, Jorge L Charco

Resumen


Hoy en día se puede acceder fácilmente a mucha información a través de Internet. Las aplicaciones de redes sociales proporcionan al usuario funciones sencillas para compartir y publicar información y, a su vez, esto permite a muchas instituciones conocer la opinión sobre un determinado tema o producto. El objetivo de este trabajo es investigar herramientas para la extracción de comentarios de la red social Instagram y hacer pruebas verificando su eficacia en la creación de un dataset. La metodología aplicada es la diagnóstica bibliográfica tomando como referencia artículos científicos sobre Tecnologías del Lenguaje Humano (TLH) y extracción de datos de redes sociales, identificando los factores en común de los artículos así como herramientas y procedimientos usados para extracción y almacenamiento. Se analizaron diversos documentos científicos sobre el tema logrando determinar herramientas de extracción de texto de Instagram así como verificar su eficacia realizando pruebas de extracción y almacenamiento usando Python y MongoBD como base no relacional. Es posible extraer texto publicado en la red social Instagram y llevarlo a una base de datos no relacional para formar un corpus o dataset que pueda ser analizado en tareas de TLH.


Palabras clave


Instagram; Corpus; Tecnologías de Lenguaje Humano.

Texto completo:

PDF HTML XML

Referencias


Canós, J. S. (2017). Desarrollo de un sistema de seguimiento para Instagram. 1–33. https://riunet.upv.es/handle/10251/87106

Dewi, L. C., Meiliana, & Chandra, A. (2019). Social media web scraping using social media developers API and regex. Procedia Computer Science, 157, 444–449. https://doi.org/10.1016/j.procs.2019.08.237

Feed RSS: ¿qué es, para qué sirve y cómo crear uno? (n.d.). Retrieved April 28, 2021, from https://rockcontent.com/es/blog/feed-rss/

Fernandes, S., Nascimento, M., Pereira, A., Melo, E., & Carlos, K. (2020). RELAÇÕES RACIAIS NO FACEBOOK: ANÁLISE DE COMENTÁRIOS ACERCA DE CONTEÚDOS RACIAIS DIGITAIS (pp. 317–329). https://doi.org/10.36367/ntqr.4.2020.317-329

Flesca, S., Greco, S., Tagarelli, A., & Zumpano, E. (2005). Mining user preferences, page content and usage to personalize website navigation. World Wide Web, 8(3), 317–345. https://doi.org/10.1007/s11280-005-1315-9

Glez-Pen‹, D., Lourenc¸o, L., Lo¤ Pez-Ferna¤ Ndez, H., Reboiro-Jato, M., & Fdez-Riverola, F. (n.d.). Web scraping technologies in an API world. https://doi.org/10.1093/bib/bbt026

Hamada, M. A., & Naizabayeva, L. (2020). Decision Support System with K-Means Clustering Algorithm for Detecting the Optimal Store Location Based on Social Network Events. 2020 IEEE European Technology and Engineering Management Summit, E-TEMS 2020, 1–4. https://doi.org/10.1109/E-TEMS46250.2020.9111758

Ichau, E., Frissen, T., & d’Haenens, L. (2019). From #selfie to #edgy. Hashtag networks and images associated with the hashtag #jews on Instagram. Telematics and Informatics, 44, 101275. https://doi.org/10.1016/j.tele.2019.101275

KOROBOV, M., & LOPUKHIN, K. (2020). SYSTEM AND METHOD FOR A WEB SCRAPING TOOL AND CLASSIFICATION ENGINE.

Li, W., Zhou, Q., Ren, J., & Spector, S. (2020). Data mining optimization model for financial management information system based on improved genetic algorithm. Information Systems and E-Business Management, 18(4), 747–765. https://doi.org/10.1007/s10257-018-00394-4

Milev, P. (2017). Conceptual Approach for Development of Web Scraping Application for Tracking Information. Economic Alternatives, 3, 475–485.

Ocampo, D. S. (2019). Investigación bibliográfica - Investigalia. Investigalia. https://investigaliacr.com/investigacion/investigacion-bibliografica/

Reinert, M. (1998). QUEL “OBJET” POUR UNE “ANALYSE STATISTIQUE DU DISCOURS” ? http://lexicometrica.univ-paris3.fr/jadt/jadt1998/reinert.htm

Villabona, N., Garcés, D. J., & Martelo, R. J. (n.d.). Caracterización de contenido de sitios web turísticos mediante scraping y minería web para contribuir a la satisfacción de turista Characterization of content of tourism websites through web scraping and web mining to contribute to tourist satisfaction. 41(36), 2020. Retrieved April 29, 2021, from https://www.revistaespacios.com




DOI: https://doi.org/10.23857/pc.v6i11.3269

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/