HONG KONG SAR – Media OutReach Newswire – Bisakah seseorang benar-benar memahami makna kata “bunga” tanpa mencium mawar, menyentuh bunga aster, atau berjalan di ladang bunga liar? Pertanyaan ini menjadi inti dari perdebatan kaya dalam filsafat dan ilmu kognitif. Teori kognisi berwujud (embodied cognition) berpendapat bahwa pengalaman fisik dan sensorik sangat penting dalam pembentukan konsep. Namun, studi terbaru terhadap model bahasa besar (Large Language Models/LLMs) yang berkembang pesat menunjukkan bahwa bahasa saja mungkin cukup untuk membangun representasi dunia yang dalam dan bermakna.

Dengan meneliti kesamaan antara LLM dan representasi manusia, para peneliti dari The Hong Kong Polytechnic University (PolyU) bersama kolaboratornya mengungkapkan wawasan baru tentang sejauh mana bahasa semata dapat membentuk pembelajaran dan pemahaman konsep kompleks. Studi ini juga menyoroti bagaimana input sensorik yang digunakan untuk grounding atau embodiment—yakni menghubungkan konsep abstrak dengan konkret selama proses belajar—mempengaruhi kemampuan LLM dalam memahami konsep kompleks dan membentuk representasi yang menyerupai manusia.

Penelitian ini dipimpin oleh Prof. Li Ping, Profesor Sin Wai Kin dalam Humaniora dan Teknologi, Dekan Fakultas Humaniora PolyU, serta Wakil Direktur PolyU-Hangzhou Technology and Innovation Research Institute, dan melibatkan kolaborasi dengan peneliti dari Ohio State University, Princeton University, dan City University of New York. Hasilnya telah dipublikasikan dalam jurnal Nature Human Behaviour.

Tim riset menggunakan penilaian kata konseptual yang dihasilkan oleh LLM terdepan seperti ChatGPT (GPT-3.5, GPT-4) dan Google LLMs (PaLM, Gemini), lalu membandingkannya dengan penilaian kata yang dihasilkan manusia terhadap sekitar 4.500 kata. Penilaian ini mencakup dimensi non-sensorimotor (misalnya valensi, kekonkretan, kemampuan divisualisasikan), sensorik (misalnya visual, penciuman, pendengaran), dan motorik (misalnya gerakan kaki/kaki, mulut/tenggorokan), yang bersumber dari dataset terpercaya Glasgow Norms dan Lancaster Norms.

Awalnya, tim membandingkan pasangan data antara individu manusia dan hasil dari satu sesi LLM untuk menilai kemiripan penilaian kata pada masing-masing dimensi. Analisis ini bertujuan menilai sejauh mana manusia dan LLM memiliki persepsi yang serupa terhadap konsep tertentu. Namun, analisis satu dimensi bisa mengabaikan kontribusi gabungan dari berbagai dimensi terhadap representasi sebuah kata. Misalnya, meskipun “pasta” dan “mawar” mendapat skor tinggi pada dimensi penciuman, “pasta” lebih mirip dengan “mi” dibandingkan “mawar” dalam hal penampilan dan rasa.

Untuk perbandingan yang lebih menyeluruh, tim melakukan representational similarity analysis terhadap tiap kata sebagai vektor multi-dimensi yang mencakup aspek non-sensorik, sensorik, dan motorik.

Hasil analisis menunjukkan bahwa representasi kata yang dihasilkan LLM paling mirip dengan representasi manusia pada dimensi non-sensorimotor, kurang mirip pada dimensi sensorik, dan paling tidak mirip pada dimensi motorik. Ini menyoroti keterbatasan LLM dalam sepenuhnya menangkap pemahaman konseptual manusia. Konsep non-sensorik relatif mudah dipahami, tetapi LLM kesulitan dalam mewakili konsep yang melibatkan informasi sensorik seperti penampilan visual dan rasa, serta gerakan tubuh. Konsep motorik, yang lebih mengandalkan pengalaman fisik langsung dan jarang dijelaskan melalui bahasa, menjadi tantangan yang lebih besar dibandingkan konsep sensorik seperti warna.

Menanggapi temuan tersebut, para peneliti kemudian menyelidiki apakah grounding dengan input sensorik dapat meningkatkan performa LLM. Mereka membandingkan performa LLM yang lebih grounded dan dilatih dengan input bahasa serta visual (seperti GPT-4 dan Gemini) dengan LLM yang hanya dilatih dengan teks (GPT-3.5, PaLM). Hasilnya menunjukkan bahwa model multimodal yang dilatih dengan input visual menunjukkan kemiripan yang jauh lebih tinggi dengan representasi manusia.

“Ketersediaan LLM yang dilatih untuk bahasa saja dan mereka yang dilatih untuk bahasa dan input visual, seperti gambar dan video, memberikan latar yang unik untuk penelitian tentang bagaimana input sensorik mempengaruhi konseptualisasi manusia. Penelitian kami mencontohkan manfaat potensial dari pembelajaran multimodal, kemampuan manusia untuk mengintegrasikan informasi dari berbagai dimensi secara simultan dalam pembelajaran dan pembentukan konsep dan pengetahuan secara umum. Menggabungkan pemrosesan informasi multimodal dalam LLM berpotensi menghasilkan representasi yang lebih mirip manusia dan kinerja yang lebih efisien dalam LLM di masa depan,” ungkap Prof. Li Ping, dalam rilisnya, Senin (9/6/2025).

Temuan ini juga sejalan dengan penelitian manusia sebelumnya tentang representational transfer, yakni kemampuan manusia memperoleh pengetahuan bentuk objek melalui pengalaman visual dan taktil, di mana melihat dan menyentuh objek mengaktifkan area otak yang sama. Para peneliti berpendapat bahwa—seperti halnya manusia—LLM multimodal dapat memanfaatkan berbagai jenis input untuk menggabungkan atau mentransfer representasi dalam ruang dimensi tinggi yang kontinu.

“Struktur kontinu dan halus dari ruang embedding dalam LLM mungkin menjadi dasar dari pengamatan kami bahwa pengetahuan dari satu modalitas dapat ditransfer ke modalitas lain. Ini juga dapat menjelaskan mengapa individu tunanetra sejak lahir dan individu normal dapat memiliki representasi yang serupa dalam beberapa aspek. Namun, keterbatasan LLM saat ini dalam hal ini masih cukup jelas,” tambah Prof. Li.

Ke depan, para peneliti membayangkan LLM yang dilengkapi dengan input sensorik langsung, misalnya melalui robot humanoid, yang memungkinkan mereka untuk memahami dan merespons dunia fisik secara aktif. Prof. Li menyimpulkan, “Kemajuan ini dapat memungkinkan LLM untuk sepenuhnya menangkap representasi yang berwujud, mencerminkan kompleksitas dan kekayaan kognisi manusia, hingga pada akhirnya, makna ‘mawar’ dalam representasi LLM akan tak terbedakan dari persepsi manusia.”

Keterangan Foto: Tim riset yang dipimpin oleh Prof. Li Ping, Profesor Sin Wai Kin dalam Humaniora dan Teknologi, Dekan Fakultas Humaniora PolyU, dan Wakil Direktur PolyU-Hangzhou Technology and Innovation Research Institute, meneliti kesamaan antara model bahasa besar (LLM) dan representasi manusia, membuka wawasan baru tentang sejauh mana bahasa saja dapat membentuk pembelajaran dan pemahaman konsep yang kompleks.