Machine Learning

Conceitos básicos

Todo projeto de ML é um projeto de Ciencia de Dados, porém nem todo projeto de Ciência de Dados é um projeto de ML. Machine Learning pode ou não ser usado dependendo do objetivo final do projeto de Data Science.
Subcampo da Inteligência Artificial, ele permite dar aos computadores a habilidade de aprender sem que sejam explicitamente programados para isso.
Método de análise de dados que automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que aprendem a partir de dados, permite que os computadores encontrem padrões (que já existem) ocultos sem que sejam explicitamente programados para procurar algo específico.
Casos os dados analisados não possuam padrões, a acertividade do algoritmo de ML será muito baixa, é necessário que existam padrões que possam ser explorados e encontrados pelo algoritmo.

Deep Learning: Aprendizado profundo, é o que mais se asemelha ao aprendizado humano, utilizado em projetos complexos de visão computacional e processamento de linguagem natural.

Um algoritmo de machine learning recebe dados históricos (faze de treinamento) e resulta em um modelo preditivo (fórmula matemática), esse modelo então está preparado para receber dados novos e resultar em previsões acertivas com base no treinamento.
É o tipo mais comum, fazem previsões com base em conjuntos de exemplos (dados históricos utilizados para treinar/ensinar o algoritmo). Os dados históricos são essenciais, parte fundamental para o funcionamento do algoritmo de Machine Learning. Nesse tipo de aprendizagem, os dados utilizados para treinamento devem possuir resultado final, por exemplo, Fator X + Fator Y gerou Fator Resultado.
Exemplo: Entrada com dados de características clínicas de pacientes e também com o resultado/variável target (variável de saída) se ao longo da vida eles tiveram diabetes ou não querendo saber quem está mais propenso a ter diabetes. A partir dessas informações o modelo resultará em uma resposta SIM ou NÃO para a pessoa desenvolver ou não a doença.
Duas categorias:

Classificação: Utilizada quando se quer prever uma classe/categoria. Exemplo: Prever se um paciente vai ou não desenvolver diabetes, resposta SIM ou NÃO (essa resposta é uma classe).
Regressão: Utilizada quando ser quer prever um valor númerico. Exemplo: Prever o valor de um imóvel (resposta numérica).

Nesse tipo de aprendizagem os dados históricos utilizados não precisam ter o Fator Resultado. Logo, podemos dizer que quando não tenho o resultado nos dados históricos eu não posso utilizar a aprendizagem Supervisionada, mas posso utilizar a Não Superviosionada.
O algoritmo aqui parte dos dados históricos e identifica diferentes grupos dentro do mesmos (por similaridade, algoritmos de distância), esses diferentes grupos encontrados com suas diferentes características podem explicitar um resultado.
Exemplo: Entrada com dados de características clínicas de pacientes procurando saber quem está mais propenso a ter diabetes (nota-se que aqui não temos o resultado/variável de saída), nesse tipo de aprendizagem o algoritmo terá como resultado diferentes grupos que possuem pacientes com características semelhantes entre si. A partir desses grupos podem ser feitas conclusões ou os mesmos podem ser utilizados para criação de labels para uso na Aprendizagem Supervisionada.
Muito utilizada para mineração de dados, considerando que na maioria das vezes não sei o que quero encontrar nesses dados, então o algoritmo identifica esses padrões e classifica os mesmos.

Um agente é treinado em um ambiente e toma ações com base em políticas. A cada ação que maximiza o objetivo o agente recebe uma recompensa, aprendendo assim a melhor forma de chegar no objetivo. É algo similiar a tentativa e erro dos humanos.
Muito utilizada em robótica, games e robôs investidores.
Forma de aprendizado mais "complexa" do que a Supervisionada e Não Supervisionada.

A principal técnica utilizada em aplicações de IA atuais.
É uma subcategoria de Machine Learning e também das Redes Neurais.
Posso ter algoritmos de Deep Learning em aprendizado Supervisionado e Não Supervisionado.
Alto nível de precisão.

Definido como “uma prática de colaboração e comunicação entre Cientistas de Dados e profissionais de operações para ajudar a gerenciar o ciclo de vida de modelos de Machine Learning em produção.
Envolve todo o processo para se chegar em um Modelo de Aprendizagem de Máquina que funciona da forma esperada.

São técnicas computacionais que apresentam um modelo matemático inspirado na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência. Uma grande rede neural artificial pode ter centenas ou milhares de unidades de processamento, buscando "imitar" o processamento do cérebro humano.