Jianfeng Chi's Homepage

Member of Technical Staff
OpenAI

Email: jianfengchi(AT)openai(DOT)com

About Me

I am a Member of Technical Staff (Research Scientist/Engineer) at OpenAI.

Previously, I was a Staff Research Scientist at Meta Superintelligence Labs, working on LLM post-training and reasoning with a focus on safety alignment. I obtained my Ph.D. degree in Computer Science from the University of Virginia, where I did research in Machine Learning, Natural Language Processing, and security & privacy.

Selected Publications / Technical Reports

* indicates equal/core contributions, listed in alphabetical order.
^† indicates equal advising.
^♦ indicates students or interns I mentored or closely collaborated.

For a full list of my publications, please go to my Google Scholar webpage.

Large Reasoning Models Learn Better Alignment from Flawed Thinking
ShengYun Peng^♦, Eric Smith^†, Ivan Evtimov^†, Song Jiang^†, Pin-Yu Chen, Hongyuan Zhan, Haozhu Wang, Duen Horng Chau, Mahesh Pasupuleti, Jianfeng Chi
[pdf]

Shape it Up! Restoring LLM Safety during Finetuning (NeurIPS 2025)
ShengYun Peng^♦, Pin-Yu Chen, Jianfeng Chi, Seongmin Lee, Duen Horng Chau.
[pdf]

Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations (Technical Report AI@Meta)
Jianfeng Chi*, Ujjwal Karn*, Hongyuan Zhan*, Eric Smith*, Javier Rando, Yiming Zhang, Kate Plawiak, Zacharie Delpierre Coudert, Kartikeya Upasani^†, Mahesh Pasupuleti^†
[pdf] [code]

Backtracking Improves Generation Safety (ICLR 2025, Oral)
Yiming Zhang^♦, Jianfeng Chi, Hailey Nguyen, Kartikeya Upasani, Daniel Bikel, Jason Weston^†, Eric Michael Smith^†.
[pdf]

Persistent Pre-Training Poisoning of LLMs (ICLR 2025)
Yiming Zhang*, Javier Rando*, Ivan Evtimov, Jianfeng Chi, Eric Michael Smith, Nicholas Carlini^†, Florian Tramèr^†, Daphne Ippolito^†.
[pdf]

Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks (NAACL Findings 2025)
Samuele Poppi^♦, Zheng-Xin Yong^♦, Yifei He, Bobbie Chern, Han Zhao, Aobo Yang^†, Jianfeng Chi^†
[pdf]

BadMerging: Backdoor Attacks Against Model Merging (CCS 2024)
Jinghuai Zhang^♦, Jianfeng Chi, Zheng Li, Kunlin Cai, Yang Zhang, Yuan Tian.
[pdf][code]

The Llama 3 Herd of Models (Technical Report AI@Meta)
Llama Team, AI @ Meta
Role: core contributor, responsible for system-level safety and help with pre-training + post-training safety
[website][arxiv]

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations (Technical Report AI@Meta)
Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa.
[pdf] [blog post] [code]

Where have you been? A Study of Privacy Risk for Point-of-Interest Recommendation (KDD 2024)
Kunlin Cai^♦, Jinghuai Zhang^♦, Zhiqing Hong, William Shand, Guang Wang, Desheng Zhang, Jianfeng Chi, Yuan Tian.
[pdf][code]

FFB: A Fair Fairness Benchmark for In-Processing Group Fairness Methods (ICLR 2024)
Xiaotian Han^♦, Jianfeng Chi, Yu Chen, Qifan Wang, Han Zhao, Na Zou, Xia Hu.
[pdf][code]

Publications during my Ph.D. study

PLUE: Language Understanding Evaluation Benchmark for Privacy Policies in English (ACL 2023)
Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang.
[pdf][code]

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies (EACL 2023)
Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang.
[pdf]

Conditional Supervised Contrastive Learning for Fair Text Classification (EMNLP Findings 2022)
Jianfeng Chi, William Shand, Yaodong Yu, Kai-Wei Chang, Han Zhao, Yuan Tian.
[pdf][code]

Towards Return Parity in Markov Decision Processes (AISTATS 2022)
Jianfeng Chi, Jian Shen, Xinyi Dai, Weinan Zhang, Yuan Tian, Han Zhao.
[pdf] [code]

Understanding and Mitigating Accuracy Disparity in Regression (ICML 2021)
Jianfeng Chi, Yuan Tian, Geoffrey J. Gordon, Han Zhao.
[pdf] [code]

Intent Classification and Slot Filling for Privacy Policies (ACL 2021)
Wasi Uddin Ahmad*, Jianfeng Chi*, Tu Le, Thomas Norton, Yuan Tian, Kai-Wei Chang.
[pdf] [code] [Video]

Trade-offs and Guarantees of Adversarial Representation Learning for Information Obfuscation (NeurIPS 2020)
Jianfeng Chi*, Han Zhao*, Yuan Tian, Geoffrey J. Gordon.
[pdf] [Poster] [Slides]

PolicyQA: A Reading Comprehension Dataset for Privacy Policies (EMNLP Findings 2020)
Wasi Uddin Ahmad*, Jianfeng Chi*, Yuan Tian, Kai-Wei Chang.
[pdf] [code]

Hybrid Batch Attacks: Finding Black-box Adversarial Examples with Limited Queries (USENIX Security 2020)
Fnu Suya, Jianfeng Chi, David Evans, Yuan Tian.
[pdf] [code]

Professional Services

PC Member/Reviewer:

Conferences:

ICML 2021-present
NeurIPS 2021-present
ICLR 2022-present
ACL 2023-present
EMNLP 2022-present
NAACL 2024-present
COLM 2024-present
AISTATS 2022-present
AAAI 2021-2023

Journals:

TMLR
IEEE Transactions on Information Forensics and Security