Carregando dados
Antes de mais nada, precisamos fazer o carregamento de dados, independentemente da linguagem que iremos utilizar.
Esses dados podem estar em diversos formatos de arquivos, o mais comum sendo csv, mas também encontramos arquivos json, SQLite e Excel apenas para citar alguns. Ha momentos também que utilizaremos diretamente uma conexão com um banco de dados, seja ele SQL ou NoSQL.
Vamos ver como carregar um arquivo csv, se ao longo dos estudos encontrarmos outros tipos de arquivos retomaremos como caregar aquele formato específico.
CSV é um formato de aquivo de “texto plano”, ou seja podemos abrir com qualquer editor de texto, em que cada linha representa um registro com seus campos separados por virgula.1 2
A primeira linha do registro pode ou não conter o títúlo dos campos designados.
Veja um exemplo de CSV:
Nome,Idade,Tipo de Usuário,Ticket Médio,Idade da Conta
João,28,Premium,150.50,3
Maria,35,Free,45.20,2
Pedro,22,Free,30.00,1
Ana,45,Premium,200.75,5
Lúcia,29,Free,40.80,2
Se você quiser utilizar esse arquivo como exemplo, abra qualquer editor de texto, cole o conteúdo acima e salve como csv no mesmo local que estiver seu script. (Apenas por facilidade)
R:
Modo nativo 3:
dados <- read.csv("nome_do_arquivo.csv")
Lib Readr 4:
dados <- readr::read_csv("nome_do_arquivo.csv")
ou
library(readr) dados <- read_csv("nome_do_arquivo.csv")
Observação:
O método nativo
read.csv
do R e a biblioteca readr com a funçãoread_csv
são usados para ler arquivos CSV, mas a principal diferença está na estrutura de dados resultante. O primeiro retorna um objetodata.frame
, que é uma estrutura de dados padrão no R para armazenar dados em formato de tabela. Por outro lado, oread_csv
retorna um objeto tibble, que é uma versão moderna e mais amigável do data.frame.
Python:
Pandas 5:
import pandas as pd dados = pd.read_csv("nome_do_arquivo.csv")
Embora seja possível ler e escrever arquivos CSV com outras bibliotecas, como csv padrão do Python, Pandas simplifica significativamente o trabalho com dados tabulares, oferecendo um conjunto de ferramentas mais robusto e eficiente para análise de dados, o que é essencial em tarefas de ciência de dados
Julia 6:
using CSV using DataFrames dados = CSV.read("nome_do_arquivo.csv", DataFrame)
Nas três linguagens acima, os arquivos são carregados para uma estutura de dados
DataFrame
, cada um com suas peculiaridades, mas todos trazem diversas
ferramentas para manipular os dados que foram carregados.