class Carregando dados : public 🥾 IA&ML Poliglota

Carregando dados

Antes de mais nada, precisamos fazer o carregamento de dados, independentemente da linguagem que iremos utilizar.

Esses dados podem estar em diversos formatos de arquivos, o mais comum sendo csv, mas também encontramos arquivos json, SQLite e Excel apenas para citar alguns. Ha momentos também que utilizaremos diretamente uma conexão com um banco de dados, seja ele SQL ou NoSQL.

Vamos ver como carregar um arquivo csv, se ao longo dos estudos encontrarmos outros tipos de arquivos retomaremos como caregar aquele formato específico.

CSV é um formato de aquivo de “texto plano”, ou seja podemos abrir com qualquer editor de texto, em que cada linha representa um registro com seus campos separados por virgula.1 2

A primeira linha do registro pode ou não conter o títúlo dos campos designados.

Veja um exemplo de CSV:

Nome,Idade,Tipo de Usuário,Ticket Médio,Idade da Conta
João,28,Premium,150.50,3
Maria,35,Free,45.20,2
Pedro,22,Free,30.00,1
Ana,45,Premium,200.75,5
Lúcia,29,Free,40.80,2

Se você quiser utilizar esse arquivo como exemplo, abra qualquer editor de texto, cole o conteúdo acima e salve como csv no mesmo local que estiver seu script. (Apenas por facilidade)

R:

Modo nativo 3:

dados <- read.csv("nome_do_arquivo.csv")

Lib Readr 4:

dados <- readr::read_csv("nome_do_arquivo.csv")

ou

library(readr)
dados <- read_csv("nome_do_arquivo.csv")

Observação:

O método nativo read.csv do R e a biblioteca readr com a função read_csv são usados para ler arquivos CSV, mas a principal diferença está na estrutura de dados resultante. O primeiro retorna um objeto data.frame, que é uma estrutura de dados padrão no R para armazenar dados em formato de tabela. Por outro lado, o read_csv retorna um objeto tibble, que é uma versão moderna e mais amigável do data.frame.

Python:

Pandas 5:

import pandas as pd
dados = pd.read_csv("nome_do_arquivo.csv")

Embora seja possível ler e escrever arquivos CSV com outras bibliotecas, como csv padrão do Python, Pandas simplifica significativamente o trabalho com dados tabulares, oferecendo um conjunto de ferramentas mais robusto e eficiente para análise de dados, o que é essencial em tarefas de ciência de dados

Julia 6:

using CSV
using DataFrames

dados = CSV.read("nome_do_arquivo.csv", DataFrame)

Nas três linguagens acima, os arquivos são carregados para uma estutura de dados DataFrame, cada um com suas peculiaridades, mas todos trazem diversas ferramentas para manipular os dados que foram carregados.

Bibliografia

  1. RFC4180 

  2. Library of Congress: CSV, Comma Separated Values 

  3. R read.table 

  4. Tidyverse Readr 

  5. Python Pandas 

  6. Julia DataFrames 

class Carregando dados : public 🥾 IA&ML Poliglota