Crime Classification using PySpark

Services

Big Data Analysis

Results

This project involved building a distributed machine learning pipeline using PySpark to classify crimes based on network activity descriptions. Feature extraction was done using NLP techniques like TF-IDF and Word2Vec, enabling a Naïve Bayes and Logistic Regression ensemble to achieve 89% accuracy.

We engineered features from packet captures, handled noisy data with PyShark, and built models capable of categorizing various cybercrimes. The approach shows how big data and AI can support law enforcement efforts in real time.

Challenges

While powerful, working with real-world packet data brought data quality and imbalance challenges. Handling inconsistent patterns and ensuring model generalization across crime categories required rigorous preprocessing and tuning.

Latest projects

Some of my other stuff

Some of my
other stuff

{

Healthcare Analytics

}

7/14/25

COVID 19 Analysis, Visualization & Forecasting

Data Science & Predictive Analytics

{

Healthcare Analytics

}

7/14/25

COVID 19 Analysis, Visualization & Forecasting

Data Science & Predictive Analytics

{

Healthcare Analytics

}

7/14/25

COVID 19 Analysis, Visualization & Forecasting

Data Science & Predictive Analytics

{

Cloud Architecture

}

7/20/25

Serverless Data Pipeline on AWS & Snowflake

Data Engineering / Cloud ETL

{

Cloud Architecture

}

7/20/25

Serverless Data Pipeline on AWS & Snowflake

Data Engineering / Cloud ETL

{

Cloud Architecture

}

7/20/25

Serverless Data Pipeline on AWS & Snowflake

Data Engineering / Cloud ETL

{

Business Analysis Project

}

4/4/25

Sales Analysis using Tableau

Business Analysis & Visualization

{

Business Analysis Project

}

4/4/25

Sales Analysis using Tableau

Business Analysis & Visualization

{

Business Analysis Project

}

4/4/25

Sales Analysis using Tableau

Business Analysis & Visualization

Ayesha Saif

Ayesha Saif

Ayesha Saif

Crime Classification using PySpark

Results

Challenges

Some of my other stuff

Some of my
other stuff

COVID 19 Analysis, Visualization & Forecasting

COVID 19 Analysis, Visualization & Forecasting

COVID 19 Analysis, Visualization & Forecasting

Serverless Data Pipeline on AWS & Snowflake

Serverless Data Pipeline on AWS & Snowflake

Serverless Data Pipeline on AWS & Snowflake

Sales Analysis using Tableau

Sales Analysis using Tableau

Sales Analysis using Tableau

Ayesha Saif

Ready to translate raw data into strategy? Reach out and let’s get started.

Ayesha Saif

Ayesha Saif

Ready to translate raw data into strategy? Reach out and let’s get started.

Ayesha Saif

Ayesha Saif

Ready to translate raw data into strategy? Reach out and let’s get started.

Ayesha Saif

Crime Classification using PySpark

Results

Challenges

Some of my other stuff

Some of myother stuff

COVID 19 Analysis, Visualization & Forecasting

COVID 19 Analysis, Visualization & Forecasting

COVID 19 Analysis, Visualization & Forecasting

Serverless Data Pipeline on AWS & Snowflake

Serverless Data Pipeline on AWS & Snowflake

Serverless Data Pipeline on AWS & Snowflake

Sales Analysis using Tableau

Sales Analysis using Tableau

Sales Analysis using Tableau

Ayesha Saif

Ayesha Saif

Ayesha Saif

Some of my
other stuff

Serverless Data Pipeline on AWS & Snowflake

Serverless Data Pipeline on AWS & Snowflake

Serverless Data Pipeline on AWS & Snowflake