Important Dates

* All deadlines are calculated at 11:59 pm
UTC-12 hours

Pre-submission mentorship application	~~Dec 1 (Sun), 2024~~
Pre-submission mentorship feedback	~~Jan 10 (Fri), 2025~~
Submission deadline	~~Jan 30 (Thu), 2025~~
Reviews due	~~Feb 25 (Tue), 2025~~
Acceptance notification	~~Mar 11 (Tue), 2025~~
Camera-ready due	~~Mar 25 (Tue), 2025~~
Uploading poster presentations	~~Apr 20 (Sun), 2025~~
Workshop	~~Apr 30 (Wed), 2025~~

Archival

Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation
Yirong Sun, Dawei Zhu, Yanjun Chen, Erjia Xiao, Xinghao Chen, Xiaoyu Shen

INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Pre-Trained Language Models and Ensemble Learning
Pablo Romero, Lifeng Han, Goran Nenadic

Linguistic Features in German BERT: The Role of Morphology, Syntax, and Semantics in Multi-Class Text Classification
Henrike Beyer, Diego Frassinelli

Thesis Proposal: Uncertainty in Knowledge Graph Embeddings
Yuqicheng Zhu

Detecting Sexism in Tweets: A Sentiment Analysis and Graph Neural Network Approach
Diana P. Madera-Espíndola, Zoe Caballero-Domínguez, Valeria J. Ramírez-Macías, Sabur Butt, Hector Ceballos

Towards Codec-LM Co-design for Neural Codec Language Models
Shih-Lun Wu, Aakash Lahoti, Arjun D Desai, Karan Goel, Chris Donahue, Albert Gu

Low-resource Machine Translation for Code-switched Kazakh-Russian Language Pair
Maksim Borisov, Zhanibek Kozhirbayev, Valentin Malykh

Generative Product Recommendations for Implicit Superlative Queries
Kaustubh Dhole, Nikhita Vedula, Saar Kuzi, Giuseppe Castellucci, Eugene Agichtein, Shervin Malmasi

ConQuer: A Framework for Concept-Based Quiz Generation
Yicheng Fu, Zikui Wang, Liuxin Yang, Meiqing Huo, Zhongdongming Dai

What is it? Towards a Generalizable Native American Language Identification System
Ivory Yang, Weicheng Ma, Carlos Guerrero Alvarez, William Dinauer, Soroush Vosoughi

Med-CoDE: Medical Critique based Disagreement Evaluation Framework
Mohit Gupta, Akiko Aizawa, Rajiv Ratn Shah

Sentimatic: Sentiment-guided Automatic Generation of Preference Datasets for Customer Support Dialogue System
Suhyun Lee, ChangHeon Han

Privacy-Preserving Federated Learning for Hate Speech Detection
Ivo de Souza Bueno Júnior, Haotian Ye, Axel Wisiorek, Hinrich Schütze

From Annotation to Adaptation: Metrics, Synthetic Data, and Aspect Extraction for Aspect-Based Sentiment Analysis with Large Language Models
Nikita Neveditsin, Pawan Lingras, Vijay Kumar Mago

Developing Japanese CLIP Models Leveraging an Open-weight LLM for Large-scale Dataset Translation
Issa Sugiura, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Naoaki Okazaki

Self-Vocabularizing Training for Neural Machine Translation
Pin-Jie Lin, Ernie Chang, Yangyang Shi, Vikas Chandra

CCT-Code: Cross-Consistency Training for Multilingual Clone Detection and Code Search
Nikita Sorokin, Tikhonov Anton, Dmitry Abulkhanov, Ivan Sedykh, Irina Piontkovskaya, Valentin Malykh

Text Compression for Efficient Language Generation
David Gu, Peter Belcak, Roger Wattenhofer

Multilingual Native Language Identification with Large Language Models
Dhiman Goswami, Marcos Zampieri, Kai North, Shervin Malmasi, Antonios Anastasopoulos

Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling
Samuel Belkadi, Libo Ren, Nicolo Micheletti, Lifeng Han, Goran Nenadic

How many words does it take to understand a low-resource language?
Emily Chang, Nada Basit

Linear Relational Decoding of Morphology in Language Models
Eric Xia, Jugal Kalita

SPY: Enhancing Privacy with Synthetic PII Detection Dataset
Maksim Savkin, Timur Ionov, Vasily Konovalov

Tighter Clusters, Safer Code? Improving Vulnerability Detection with Enhanced Contrastive Loss
Pranav Kapparad, Biju R Mohan

Text Extraction and Script Completion in Images of Arabic Script-Based Calligraphy: A Thesis Proposal
Dilara Zeynep Gürer, Ümit Atlamaz, Şaziye Betül Özateş

Subasa - Adapting Language Models for Low-resourced Offensive Language Detection in Sinhala
Shanilka Haturusinghe, Tharindu Cyril Weerasooriya, Christopher M Homan, Marcos Zampieri, Sidath Ravindra Liyanage

Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs
Marina Sakharova, Abhinav Anand, Mira Mezini

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images
Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov

ColorFoil: Investigating Color Blindness in Large Vision and Language Models
Ahnaf Mozib Samin, M Firoz Ahmed, Md. Mushtaq Shahriyar Rafee

Towards Practical and Knowledgeable LLMs for a Multilingual World: A Thesis Proposal
Bryan Li

MDC3: A Novel Multimodal Dataset for Commercial Content Classification in Bengali
Anik Mahmud Shanto, Mst. Sanjida Jamal Priya, Fahim Shakil Tamim, Mohammed Moshiul Hoque

DateLogicQA: Benchmarking Temporal Biases in Large Language Models
Gagan Bhatia, Ming Ze Tang, Cristina Mahanta, Madiha Kazi

AMR-RE: Abstract Meaning Representations for Retrieval-Based In-Context Learning in Relation Extraction
Peitao Han, Lis Pereira, Fei Cheng, Wan Jou She, Eiji Aramaki

Linguistic Analysis of Veteran Job Interviews to Assess Effectiveness in Translating Military Expertise to the Civilian Workforce
Caroline J. Wendt, Ehsanul Haque Nirjhar, Theodora Chaspari

MetaMeme: A Dataset for Meme Template and Meta-Category Classification
Benjamin Lambright, Jordan Youner, Constantine Lignos

Representing and Clustering Errors in Offensive Language Detection
Jood Otey, Laura Biester, Steven R Wilson

ELIOT: Zero-Shot Video-Text Retrieval through Relevance-Boosted Captioning and Structural Information Extraction
Xuye Liu, Yimu Wang, Jian Zhao

Can Large Language Models Advance Crosswalks? The Case of Danish Occupation Codes
Bolei Ma, Cynthia A. Huang, Anna-Carolina Haensch

Paraphrase-based Contrastive Learning for Sentence Pair Modeling
Seiji Sugiyama, Risa Kondo, Tomoyuki Kajiwara, Takashi Ninomiya

Do Video Language Models really understand the video contexts?
Jeongwan Shin, Jinhyeong Lim, Hyeyoung Park

Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics?
Sourabrata Mukherjee, Atul Kr. Ojha, John Philip McCrae, Ondrej Dusek

(CPER) From Guessing to Asking: An Approach to Resolving Persona Knowledge Gap in LLMs during Multi-Turn Conversations
Sarvesh Baskar, Manas Gaur, Srinivasan Parthasarathy, Tanmay Tulsidas Verlekar

Streamlining LLMs: Adaptive Knowledge Distillation for Tailored Language Models
Prajvi Saxena, Sabine Janzen, Wolfgang Maass

LLM DEBATE OPPONENT : Counter-argument Generation focusing on Implicit and Critical Premises
Taisei Ozaki, Chihiro Nakagawa, Naoya Inoue, Shoichi Naito, Kenshi Yamaguchi

AutoML Meets Hugging Face: Domain-Aware Pretrained Model Selection for Text Classification
Parisa Safikhani, David Broneske

Paraphrasing Attack Resilience of Various Machine-Generated Text Detection Methods
Andrii Shportko, Inessa Verbitsky

Detecting, Generating, and Evaluating in the Writing Style of Different Authors
Mosab Rezaei

Collaborative Data Exploration through Visualization: A Thesis Proposal Analyzing Impact of Conversational Assistants
Abari Bhattacharya, Barbara Di Eugenio

MENDER: Multi-hop Commonsense and Domain-specific CoT Reasoning for Knowledge-grounded Empathetic Counseling of Crime Victims
Abid Hossain, Priyanshu Priya, Armita Mani Tripathi, Pradeepika Verma, Asif Ekbal

SkipCLM: Enhancing Crosslingual Alignment of Decoder Transformer Models via Contrastive Learning and Skip Connection
Nikita Sushko, Alexander Panchenko, Elena Tutubalina

Towards LLMs Robustness to Changes in Prompt Format Styles
Lilian Ngweta, Kiran Kate, Jason Tsay, Yara Rizk

Reliability of Distribution Predictions by LLMs: Insights from Counterintuitive Pseudo-Distributions
Toma Suzuki, Ayuki Katayama, Seiji Gobara, Ryo Tsujimoto, Hibiki Nakatani, Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning
Shaun Lee Baek, Shaun Esua-Mensah, Cyrus Tsui, Sejan Vigneswaralingam, Abdullah Alali, Michael Lu, Vasu Sharma, Kevin Zhu

Non-archival

Can You See the Lie Without Looking? Language-Only Approach to Hallucination Detection in VLMs
Maiya Goloburda, Sholpan Bolatzhanova, Ainur Khamitova, Daniil Orel, Thamar Solorio, Yova Kementchedjhieva

X-Riddles: Evaluating the Reasoning Abilities of LLMs with Chinese Xiehouyu Riddles
Siyuan Song, Kejia Zhang, Chongtian Shao, Hai Hu

Human-AI Alignment Under Social Subgroup Disagreement
Negar Mokhberian

HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild
Zhiying Zhu, Yiming Yang, Zhiqing Sun

Exploring Cross-Cultural Emotion Differences: from Dataset Construction to LLMs Evaluation
Tadesse Destaw Belay

Are a Handful of Weights Enough? Superweight-based Merging for Efficient Knowledge Transfer in Large Language Models
Sidhaarth Sredharan Murali, Hemanth Kumar M, Aaryan Nijhawan, Anand Kumar Madasamy

Towards Practical and Knowledgeable Large Language Models for a Multilingual World
Bryan Li

Multilingual Emotion Analysis in Social Media Using Advanced Large Language
Tewodros Achamaleh

Advancing Causal Reasoning in Portuguese: An Evaluation of LLMs in Interventions and Counterfactuals
Uriel Anderson de Oliveira Lasheras, Elioenai L. G. Alves, Vladia Pinheiro

Probing Audio-Generation Capabilities of Text-Based Language Models
Arjun Prasaath Anbazhagan, Ujjwal Kaur, Parteek Kumar, Kevin Zhu, Aslihan Akalin, Sean O’Brien

Efficient LLM Adaptation for Long Clinical Text Summarization
Kadir Bulut Ozler, Steven Bethard

Small Encoders Can Rival Large Decoders in Detecting Groundedness
Istabrak Abbes, Gabriele Prato, Quentin Fournier, Sarath Chandar

GRS-QA - Graph Reasoning-Structured Question Answering Dataset
Anish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin Saw Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Breaking Language Barriers: Equitable Performance in Multilingual Language Models
Tanay Nagar, Grigorii Khvatskii, Anna Sokol, Nitesh V Chawla

Structured Understanding of Social Media Discourse: An Automated Framework for Taxonomy Construction
Haiqi Zhang

Demographic Features for Annotation-Aware Classification
Narjes Tahaei

Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering
DongGeon Lee, Ahjeong Park, Hyeri Lee, Hyeonseo Nam, Yunho Maeng

NBDESCRIB: A Dataset for Text Description Generation from Tables and Code in Jupyter Notebooks with Guidelines
Xuye Liu, Tengfei Ma, Yimu Wang, Fengjie Wang, Jian Zhao

SELF-PERCEPT: Detecting Multi-Person Mental Manipulation in Conversations
Danush Khanna, Pratinav Seth, Sidhaarth Sredharan Murali, Aditya Kumar Guru, Siddharth Shukla, Tanuj Tyagi, SANDEEP CHAURASIA, Kripabandhu Ghosh

Mind the Gap: Computational Validation of Crowd-Sourced Linguistic Knowledge on Morphological Gaps of Two Related Languages
Jonathan B. Sakunkoo, Annabella Sakunkoo

Emergent Stack Representations in Modeling Counter Languages Using Transformers
Utkarsh Tiwari, Aviral Gupta, Michael Hahn

ChunkRAG: A Novel LLM-Chunk Filtering Method for RAG Systems
Ishneet Sukhvinder Singh, Ibrahim Allahverdiyev, Ritvik Aggarwal, Muhammad Taha, Kevin Zhu, Aslihan Akalin, Sean O’Brien

MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered
Cole Huang, Rohan Rajasekhara Patil, Imran Mirza, Ishwara Vasista, Kevin Zhu, Aslihan Akalin, Sean O’Brien

Towards Safer AI in Healthcare: Using Storytelling to Educate About Unintended Harms of AI-Powered Tools
Xingmeng Zhao, Anthony Rios

DIG-DIS: Transformer-Based Models vs State Space Models on Complex Theory of Mind Reasoning Tasks
Aayushya Patel, Maximilian Prince, Adithri Manda, Hannah You, Sahasra Kalakonda, Kevin Zhu, Aslihan Akalin, Sean O’Brien, Vasu Sharma

Thesis Proposal: Understanding Misinformation on Social Media Through Truthfulness Stance
Zhengyuan Zhu

CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning
Andrew Rufail, Daniel Kim, Kevin Zhu, Sean O’Brien

Rethinking Safety Evaluation in Large Language Models: A Research Proposal
Khaoula Chehbouni

Momentum-Aided Natural Language Gradient Descent for Prompt Optimization
Anthony Cui, Pranav Nandyalam, Ethan Cheung, Aiden Lei, Kevin Zhu, Sean O’Brien

TRUTH DECAY: Quantifying Multi-Turn Sycophancy in Language Models
Aarav Jain, Srihan Vege, Soham Takuri, Joshua Liu, Kevin Zhu, Aslihan Akalin, Sean O’Brien, Vasu Sharma

Exploring Taxonomic Emotion Detection via Saliency Mapping and Large Language Model Context Generation
Tawfik Ali, ala omidfar, Sai Phalguna, Raaneya Dehlavi, Kevin Zhu, Aslihan Akalin, Sean O’Brien

DebateBench: A Challenging Long Context Reasoning Benchmark For Large Language Models
Utkarsh Tiwari, Aryan Seth, Adi Mukherjee, Kaavya Mer, Kavish, Dhruv Kumar

Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration
James Begin, Namit Agrawal, Eshan Singh, Yicheng Fu, Sean O’Brien, Vasu Sharma, Kevin Zhu

UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs
Prameshwar Thiyagarajan, Vaishnavi Parimi, Shamant Sai, Soumil Garg, Zhangir Meirbek, Nitin Yarlagadda, Kevin Zhu, Chris Kim

Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs
Vincent Li, Tim Knappe, Yule Fu, Kevin Zhu, Kevin Han

EnDive: A Cross-Dialect Benchmark for Fairness and Performance in Large Language Models
Abhay Gupta, Jacob Cheung, Philip Meng, Shayan Sayyed, Austen Liao, Kevin Zhu, Sean O’Brien

NAACL Student Research Workshop (SRW) 2025

Important Dates

Archival

Non-archival