Features/wordcloud #123

vitoryeso · 2021-11-01T14:06:37Z

Componente WordCloud. Pode receber textos em .csv ou apenas string. Possui alguns parâmetros como stopwords, max_words, background_color e etc. Também foram adicionados testes para esse componente.

gvechini · 2021-11-08T15:02:44Z

Para todos os experiments, os títulos e descrições das seções poderiam ser mais claros e direcioandos para essa tarefa das componentes específicas, wordcould e pdf_extractor, eles estão como no defult de uma tarefa em branco.

Para todos os deployment, o titulo está como "Nova Tarefa - Implantação" e o texto está como "Preencha aqui com detalhes sobre a tarefa". Sugiro deixar esse header igual ao dos respectivos experiments.
No deploy de pdf_extractor tbm é preciso limpar os outputs, também seria melhor remover a última célula #testing.

gvechini · 2021-11-08T15:03:42Z

No experiment do wordclous suba o aquivo com os outputs limpos.
No tópico "Leitura do conjunto de dados" a saída "data" tende a ser um vetor/coluna de csv bem grande né? Seria interessante mostrar só uma parte ou nem mostrar essa variável.

No experiment de pdf_extractor suba também o arquivo com os outputs limpos. Note que há uma caixinha de código não ultiliazda no final.
No tópico "Extraindo texto" você importa a função PDFExtractor e não ultiliza ela nesta célula, recomendo retirar essa chamada.

sonarqubecloud · 2021-11-08T20:54:52Z

SonarCloud Quality Gate failed.

0 Bugs
0 Vulnerabilities
0 Security Hotspots
0 Code Smells

0.0% Coverage
8.9% Duplication

lucasns97 · 2021-11-22T18:12:28Z

tasks/pdf-extractor/pdf_extractor.py

+from typing import List, Optional
+
+
+def init_cut(string:str, delimiter: str):


Seria interessante adicionar um docstring explicando o que este método faz.

lucasns97 · 2021-11-22T18:12:52Z

tasks/pdf-extractor/pdf_extractor.py

+        return delimiter + splitted[-1]
+    else: return "Delimiter not found."
+
+def final_cut(string:str ,delimiter: str):


Seria interessante adicionar um docstring explicando o que este método faz. Assim como os outros métodos desenvolvidos.

lucasns97 · 2021-11-22T18:15:33Z

tasks/pdf-extractor/pdf_extractor.py

+    else:
+        return None
+
+def read_memory(stream,


Adicionar um docstring explicitando o que cada variável representa seria interessante.

Ex:

''' Lê e pré processa os dados de um stream... Parameters: ========= stream (tipo): Descrição... ... '''

lucasns97 · 2021-11-22T18:18:41Z

tests/datasets.py

@@ -340,8 +348,33 @@ def paracrawl_test_data():
            "names":["text_english","text_portuguese"]
        },
    }
-    return data
+    return dat


Isso gerou um erro em outros componentes. O correto anteriormente escrito era return data

lucasns97

Mencionei um ponto que está causando erro em outras tasks; e esta PR está causando conflito com o datasets.py, precisam ser resolvidos antes do merge

vitoryeso added 11 commits October 20, 2021 19:23

pdf_extractor component

e5bcbf4

pdf_extractor component*

c0e0337

add pdf-extractor component and tests

cd552d0

fix doscrings

7e7fc2f

specit error handling

e24c997

back chunker experiment

a30aa2c

refactor extract_related_text

2059611

fix some code smell issues from sonarcloud

276c0a0

add wordcloud component

b153f8d

fix pdf-extractor error handling

b95d528

wordcloud tests

3fcaea9

vitoryeso requested review from gvechini and lucasns97 November 1, 2021 14:06

fix experiment/deployment notebooks documentations

cb9c853

lucasns97 reviewed Nov 22, 2021

View reviewed changes

lucasns97 self-requested a review November 25, 2021 12:34

lucasns97 suggested changes Nov 25, 2021

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Features/wordcloud #123

Features/wordcloud #123

vitoryeso commented Nov 1, 2021

gvechini commented Nov 8, 2021

gvechini commented Nov 8, 2021

sonarqubecloud bot commented Nov 8, 2021

lucasns97 Nov 22, 2021

lucasns97 Nov 22, 2021

lucasns97 Nov 22, 2021

lucasns97 Nov 22, 2021

lucasns97 left a comment

		from typing import List, Optional


		def init_cut(string:str, delimiter: str):

Features/wordcloud #123

Are you sure you want to change the base?

Features/wordcloud #123

Conversation

vitoryeso commented Nov 1, 2021

gvechini commented Nov 8, 2021

gvechini commented Nov 8, 2021

sonarqubecloud bot commented Nov 8, 2021

lucasns97 Nov 22, 2021

Choose a reason for hiding this comment

lucasns97 Nov 22, 2021

Choose a reason for hiding this comment

lucasns97 Nov 22, 2021

Choose a reason for hiding this comment

lucasns97 Nov 22, 2021

Choose a reason for hiding this comment

lucasns97 left a comment

Choose a reason for hiding this comment