📩 Spam SMS Classification – UAP Pembelajaran Mesin

Proyek ini merupakan Ujian Akhir Praktikum (UAP) mata kuliah Pembelajaran Mesin, yang berfokus pada klasifikasi teks SMS spam dan ham menggunakan tiga pendekatan model, yaitu:

Neural Network Base (Non-Pretrained – LSTM)
Pretrained Model 1 – DistilBERT
Pretrained Model 2 – BERT

Selain pelatihan dan evaluasi model, proyek ini juga dilengkapi dengan dashboard interaktif menggunakan Streamlit untuk melakukan inferensi dan analisis performa model.

👨‍🎓 Informasi Mahasiswa

Nama : Khairy Zhafran H. Kastella
NIM : 202210370311439
Mata Kuliah : Pembelajaran Mesin
Universitas : Universitas Negeri Malang

📂 Struktur Repository

📦 Praktikum-Text-UAP
│
├── data/
│   └── spam.csv
│
├── file_ipynb/
│  ├── Model_Bert_UAP_Machine_Learning.ipynb
│  ├── Model_Distilbert_UAP_Machine_Learning.ipynb
│  └── Model_LSTM_UAP_Machine_Learning.ipynb
│   
├── model_nn_base/
│   ├── model_lstm.pth
│   └── tokenizer.pkl
│
├── model_distilbert/
│   ├── config.json
│   ├── model.safetensors
│   └── tokenizer.json
│
├── model_bert/
│   ├── config.json
│   ├── model.safetensors
│   └── tokenizer.json
│
├── train_lstm.py
├── train_distilbert.py
├── train_bert.py
│
├── evaluate_lstm.py
├── evaluate_distilbert.py
├── evaluate_bert.py
│
├── app.py
├── requirements.txt
├── pyproject.toml
└── README.md

📊 Dataset

Proyek ini menggunakan dataset SMS Spam Collection Dataset dari Kaggle.

Sumber Dataset
🔗 https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset
Jumlah Data : 5.574 SMS
Label :
- ham → SMS normal
- spam → SMS spam

Contoh Data

Label	Teks
ham	Go until jurong point, crazy.. Available only in bugis
spam	Free entry in a weekly competition to win FA Cup tickets

⚙️ Preprocessing Data

Langkah preprocessing yang dilakukan:

Encoding label (ham = 0, spam = 1)
Pembersihan teks dasar
Tokenisasi:
- TF-IDF untuk model NN Base
- Tokenizer Transformer untuk DistilBERT dan BERT
Padding & truncation (max length = 128)

🧠 Model yang Digunakan

1️⃣ Neural Network Base (Non-Pretrained – LSTM)

Embedding Layer
LSTM Layer
Fully Connected Layer
Sigmoid Output
Dilatih dari awal tanpa pretrained weight

Kelebihan:

Lebih ringan
Mudah dipahami
Cocok untuk baseline

2️⃣ Pretrained Model 1 – DistilBERT

Model Transformer ringan
Transfer learning dari distilbert-base-uncased
Fine-tuning pada dataset SMS Spam

Kelebihan:

Lebih cepat dari BERT
Akurasi tinggi
Lebih efisien untuk deployment

3️⃣ Pretrained Model 2 – BERT

Model Transformer penuh
Transfer learning dari bert-base-uncased
Representasi konteks teks lebih kaya

Kelebihan:

Akurasi tertinggi
Pemahaman konteks lebih baik

📈 Evaluasi Model

Evaluasi dilakukan menggunakan:

Classification Report
- Accuracy
- Precision
- Recall
- F1-Score
Confusion Matrix
Grafik Loss dan Accuracy

Contoh Metrik Evaluasi

Model	Accuracy
LSTM (NN Base)	~87%
DistilBERT	~96%
BERT	~97%

📌 Model pretrained menunjukkan performa yang lebih baik dibandingkan model non-pretrained.

📊 Visualisasi

Grafik Training Loss vs Epoch
Grafik Accuracy vs Epoch

📈 Hasil Evaluasi Model

🔹 Perbandingan Akurasi 3 Model

Grafik menunjukkan bahwa BERT memiliki performa terbaik, diikuti oleh DistilBERT, sedangkan LSTM digunakan sebagai baseline non-pretrained.

🧪 Evaluasi Per Model

1️⃣ LSTM (Non-Pretrained)

Training Loss & Accuracy

Model LSTM menunjukkan proses pembelajaran yang stabil, namun performanya masih terbatas dibanding model pretrained karena keterbatasan pemahaman konteks bahasa.

Confusion Matrix

Masih terdapat kesalahan klasifikasi, terutama pada data spam yang memiliki struktur bahasa mirip pesan normal.

2️⃣ DistilBERT

Training Loss & Accuracy

Kurva training menunjukkan konvergensi yang baik dan stabil. DistilBERT mampu belajar lebih cepat dengan performa yang mendekati BERT.

Confusion Matrix

Mayoritas prediksi berada pada diagonal utama, menandakan performa klasifikasi yang kuat dan konsisten.

3️⃣ BERT

Training Loss & Accuracy

BERT menunjukkan akurasi tertinggi dengan loss paling rendah, menandakan pemahaman konteks teks yang sangat baik.

Confusion Matrix

Hampir seluruh prediksi berada pada diagonal utama, menunjukkan performa klasifikasi terbaik di antara ketiga model.

🖥️ Dashboard Streamlit

Dashboard menyediakan fitur:

Pilih model (LSTM / DistilBERT / BERT)
Input teks SMS
Prediksi real-time
Tampilan hasil dengan:
- 🟥 Background merah untuk SPAM
- 🟩 Background hijau untuk HAM
Informasi jumlah total data

▶️ Cara Menjalankan Project (Local)

1️⃣ Clone Repository

git clone https://github.com/username/Praktikum-Text-UAP.git
cd Praktikum-Text-UAP

2️⃣ Install Dependency

pip install -r requirements.txt

atau menggunakan PDM:

pdm install

3️⃣ Jalankan Dashboard

streamlit run app.py

🌐 Live Demo (Optional)

🔗 Belum tersedia / Opsional

📝 Kesimpulan

Model pretrained (DistilBERT & BERT) memberikan performa terbaik
LSTM tetap layak sebagai baseline
Streamlit mempermudah analisis dan presentasi model
Transfer learning sangat efektif untuk klasifikasi teks

📌 Catatan

Proyek ini dibuat untuk keperluan akademik dan pembelajaran, bukan untuk penggunaan komersial.

⭐ Jangan lupa beri star jika repository ini membantu!

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
__pycache__		__pycache__
data		data
file_ipynb		file_ipynb
gambar_figure		gambar_figure
model_lstm		model_lstm
model_nn_base		model_nn_base
.gitignore		.gitignore
.pdm-python		.pdm-python
LICENSE		LICENSE
README.md		README.md
app.py		app.py
data_figure		data_figure
evaluate_all_models.py		evaluate_all_models.py
evaluate_bert.py		evaluate_bert.py
evaluate_distilbert.py		evaluate_distilbert.py
evaluate_lstm.py		evaluate_lstm.py
evaluate_nn_base.py		evaluate_nn_base.py
pdm.lock		pdm.lock
pyproject.toml		pyproject.toml
train_bert.py		train_bert.py
train_distilbert.py		train_distilbert.py
train_lstm.py		train_lstm.py
train_text.py		train_text.py

License

NightRunners02/UAP_Machine-Learning

Folders and files

Latest commit

History

Repository files navigation

📩 Spam SMS Classification – UAP Pembelajaran Mesin

👨‍🎓 Informasi Mahasiswa

📂 Struktur Repository

📊 Dataset

Contoh Data

⚙️ Preprocessing Data

🧠 Model yang Digunakan

1️⃣ Neural Network Base (Non-Pretrained – LSTM)

2️⃣ Pretrained Model 1 – DistilBERT

3️⃣ Pretrained Model 2 – BERT

📈 Evaluasi Model

Contoh Metrik Evaluasi

📊 Visualisasi

📈 Hasil Evaluasi Model

🔹 Perbandingan Akurasi 3 Model

🧪 Evaluasi Per Model

1️⃣ LSTM (Non-Pretrained)

2️⃣ DistilBERT

3️⃣ BERT

🖥️ Dashboard Streamlit

▶️ Cara Menjalankan Project (Local)

1️⃣ Clone Repository

2️⃣ Install Dependency

3️⃣ Jalankan Dashboard

🌐 Live Demo (Optional)

📝 Kesimpulan

📌 Catatan

⛓️‍💥 Misc / Lain-lain

🗣️ Powered By:

🌠 Starred:

🪐 Forked:

💫 Star History:

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages