Quem quer ser um cientista de dados?

  • Laura Damaceno de Almeida |
  • Ciência de dados |Dicas |
  • 01, Abril de 2020 | 11 mins de leitura

Muitas pessoas me perguntam como entrar na área de dados, e nesse post passarei algumas dicas e trilhas que podem ser bem interessantes para vocês que estão iniciando.

Antes de tudo eu gostaria de dizer que essa trilha que eu percorri não é a única verdade, cada profissional teve um processo e aprendeu da forma que podia, e nesse post vou compartilhar a que eu segui. Bora lá?!!


Atualmente com a grande produção de dados das pessoas, vindo das redes sociais e da internet e grande parte desses dados “sem valor” acabam indo para o lixo, entretanto com os casos de sucesso na utilização desses dados, por exemplo a eleição do Donald Trump e a Cambrige Analytica, que usaram os dados das pessoas nas redes sociais em conjunto de técnicas de ciência de dados e aprendizado de máquina para fazer campanhas mais direcionadas para públicos específicos, foi um dos fatores que levaram as empresas perceberem o valor e o poder que os dados podem ter. Então o mercado vem pedindo cada vez mais por profissionais de dados (engenheiros, analistas e cientistas).

A área dos dados vêm sido muito requisitada por pessoas de diversas formações, pois não necessariamente você precisa estar formado em um curso de tecnologia para atuar na área, por conta do campo multidisciplinar que é a ciência de dados.


Quais skills são necessárias na área?


Linguagem de programação

Como envolve bastante programação é altamente recomendado que você conheça uma linguagem de programação, atualmente as 2 mais utilizadas são o R e o Python, você não precisa conhecer as duas para entrar na área, mas conhecendo bem uma delas já é um diferencial. Tem cursos no Alura sobre essas linguagens, a Udemy tem promoções bem interessantes em alguns cursos.

Além disso tem a opção gratuita fornecida por algumas comunidades, entre elas as comunidades Pyladies e R-Ladies que fazem workshops ensinando respectivamente python e R para mulheres.



Conheça as bibliotecas utilizadas na área

Após você aprender sobre a linguagem de programação, recomendo vocês aprenderem as bibliotecas que são utilizadas na área. Eu vou dar o exemplo do python que é a linguagem que eu mais utilizo.

As bibliotecas mais utilizadas no python são: pandas, numpy, matplotlib, seaborn e scikit-learn. Então eu recomendo conhecer um pouco mais dessas bibliotecas, entender como mexer nelas, como manipular os dados usando elas, no caso do pandas e numpy: quais os tipos de dados que eles têm.

(Obs: Se quiserem eu posso fazer artigos especiais sobre essas bibliotecas e como mexer em cada uma delas!).



Banco de dados

Dependendo da área que você for trabalhar conhecer banco de dados é essencial, pois os dados que são usados em análises e como entrada para os modelos de machine learning, são coletados do banco de dados.

Portanto saber como fazer consultas no banco de dados é bem essencial nessa área. Existe dois tipos de bancos de dados, relacional e o não relacional para entender melhor os tipos de banco de dados, segue um artigo bem explicativo sobre isso do EAD Courses.

Mas basicamente o banco de dados relacional é composto por tabelas, e elas tem um relacionamento entre elas, por exemplo: uma tabela que armazena os cursos de uma faculdade, chamada Curso e outra que armazena os alunos, chamada Aluno. Um aluno está matriculado à um curso específico, portanto nós temos um relacionamento entre a tabela Aluno e a tabela Curso. Já no banco de dados não relacional, não temos esse relacionamento, e é muito utilizado quando nós não temos uma estrutura bem definida nos dados.



Matemática

Na área de ciência de dados envolve bastante probabilidade e estatística, seja para escolher a métrica de avaliação do modelo, escolher o melhor modelo, entender a tendência dos dados e ao realizar análise exploratória nos dados.

A comunidade do Pizza de dados fizeram uma trilha bem legal sobre matemática e estatística.



Algoritmos de Machine learning

Agora vamos para a parte mais legal na minha opinião na área de ciência de dados… Machine learning ou aprendizado de máquina.

Aprendizado de máquina é uma sub-área da inteligência artificial e podemos defini-lá como uma representação matemática de um problema que queremos resolver. Existe 3 tipos de aprendizado de máquina: Supervisionado, não supervisionado e o por reforço.

Tem um artigo bem legal que eu escrevi para o blog da AI Girls, que eu explico os tipos de machine learning. Tem cursos bem legais e completos na Udemy, Alura, Coursera e a trilha do Pizza de dados.


E quais profissões existem na área dos dados?

Ao contrário do que as pessoas pensam, existem outros profissionais na área além do cientista de dados, há 3 principais áreas: Engenharia de dados, analista de dados e cientista de dados, que atuam de formas diferentes e necessitam de skills diferentes.


A área de engenharia de dados fica responsável por projetar, criar, integrar e manter dados de várias fontes, além disso desenvolvem, constroem, testam e dão manutenção em arquiteturas, como os sistemas de processamento de dados em larga escala. Eles tornam os dados prontos para utilização, então realizam a coleta e o pré processamento dos deles.

Conhecimentos necessários:Python, R, Java, SQL, NoSQL, Hadoop, Spark.


A área de análise de dados geralmente coletam dados e criam relatórios de BI para o uso interno e de clientes.Os profissionais que atuam nela são geralmente iniciantes na área de dados com habilidades em programação, negócios e matemática.

Conhecimentos necessários:Python, R, ferramentas de visualização (por exemplo: Tableu, Power BI).

A área de ciência de dados reunem e limpam grandes conjuntos de dados, criam modelos matemáticos e interpretam descobertas em soluções de negócios e como diz uma grande amiga, eles são as fadas que transformam os dados em conhecimento e valor. E quem não gostaria de ser uma fada?!

Os profissionais nessa área têm normalmente experiência em matemática, programação e análise de negócios.

Conhecimentos necessários:Python, R, SQL, NoSQL, matemática, modelos de machine learning.

Se ficou curioso em saber mais sobre essas áreas tem o artigo da AI Girls , do Data Hackers, e o repositório do Pizza de Dados.

Agora vai algumas dicas pessoais para vocês que querem entrar em alguma dessas áreas.


Seja curiosa(o)!

Esse é uma dica super especial. Um cientista por si só já é bastante curioso, e buscar sempre o “porquê” das coisas, a curiosidade fez o ser humano ter descobertas incríveis.

O cientista de dados está a procura de entender os dados, “Porque isso aconteceu?”, “se eu colocar esse dado no meu modelo vai melhorar ou piorar? E se eu tirar?”. Então a curiosidade será sua grande aliada nessa jornada.


Seja curiosa(o)!

Para quem não sabe mentor é aquela pessoa mais experiente que compartilha os conhecimentos com você e te guia, e durante todo meu processo eu tive e tenho mentores. Se possível procure pessoas que já trabalham na área que consigam te auxiliar na sua jornada de mochileira(o).

Atualmente eu tenho uma mentora que me auxiliou desde o início, tirando minhas dúvidas, me passando uma trilha de estudos e desafios para serem entregues e ela vêm me ajudando cada vez mais a evoluir.


Participe de comunidades e eventos que envolve a área de dados

Atualmente existem bastantes comunidades de tecnologia, e porquê não teria para ciência de dados?!

Além dessas que eu vou citar diversas comunidades realizam eventos ou meetups sobre ciência de dados, então fiquem ligados nos eventos.

Participar de comunidades faz você ficar mais antenado nas tecnologias da área, além disso você consegue conhecer pessoas e fazer networking, o que já te ajuda na minha terceira dica.


Faça novas conexões!

Conecte-se com pessoas da área, troque uma idéia com elas no LinkedIn e pegue algumas dicas com elas, além disso você vai ter a oportunidade de ver o que elas compartilham e o que elas estão recomendando.


Leia artigos e ouça podcast!

É importante estarmos sempre atentos com as mudanças e as novas tecnologias. Se você é uma pessoa que gosta de ler, eu recomendo os seguintes grupos sobre ciência de dados:

Se você curte podcast, eu recomendo esses canais:

E por hoje é tudo pessoal!! Qualquer dúvida me chamem nas redes sociais que eu estou à disposição.

Share love
Sobre a autora

Pyladie de coração e cientista de dados na IBM, apaixonada por IA e ciência de dados. Acredita que ambas tecnologias podem causar um impacto positivo na sociedade.

Veja mais
Voltar para a listagem
Próximo