Clickbait merupakan masalah yang sering muncul di berita Indonesia. Berita-berita clickbait mengutamakan interaksi pembaca dibandingkan dengan informasi yang berguna. Pembaca berita tersebut juga mengalami resiko tersulut emosi untuk melakukan tindakan kekerasan baik fisik maupun online. Oleh sebab itu, dibutuhkan sebuah sistem yang mampu membantu pembaca mengetahui apabila suatu berita berupa clickbait atau tidak. Penelitian ini mengajukan penggunaan metode model multimodal menggunakan IndoBERT dan EfficientNetV2 untuk melakukan pengenalan karakteristik teks dan gambar dari suatu berita. Model memanfaatkan data judul, isi, dan gambar sampul dari situs berita online. Dilakukan perbandingan dengan menggunakan metode yang hanya mengenali teks saja. Model multimodal berhasil meraih akurasi 74.37%, lebih baik dari model yang hanya memproses teks dengan akurasi 73.09%, namun hasil terbaik diraih dengan model averaging yang meraih akurasi 76.23%. Dari pengujian, ditemukan bahwa judul memberi pengaruh yang paling signifikan terhadap hasil model dibandingkan isi dan gambar sampul dari berita.