Jing Zhang's Homepage

Jing ZHANG

Professor
Department of Computer Science and Technology
School of Information
Renmin University of China

Email: zhang-jing AT ruc DOT edu DOT cn

Address: Room 427, Information Building, Renmin University of China, Beijing

Publications | Students | Talks | Services | Teaching

I am a professor at School of Information, Renmin University of China. Prior to that, I received my Ph.D. degree from Department of Computer Science and Technology, Tsinghua University under supervision of Professor Jie Tang and Professor Juanzi Li. My research focuses on data mining and knowledge discovery, with an emphasis on tailoring large language models (LLMs) for structured data processing to advance their application in data science. Specifically, I investigate model alignment methods, including data synthesis and learning from human-AI feedback, to enhance LLMs' capabilities in querying, manipulating, and analyzing structured data stored in databases, spreadsheets, and APIs. Additionally, I explore model compression techniques and efficient inference methods to improve the efficiency of post-training and deployment of these models. More information about my experience and research can be found on Google Scholar.

I am looking for highly-motivated students to work with me. If interested, please drop me a message by email.

Publications

all : conference | journal | pre-print

graph representation learning : gnn | pre-training and SSL for gnn | probabilistic graphic model | node similarity

social computing : recommendation | social influence | link prediction

A Query Optimization Method Utilizing Large Language Models.
Zhiming Yao, Haoyang Li, Jing Zhang^*, Cuiping Li, Hong Chen
arXiv:2503.06902.

LLMIdxAdvis: Resource-Efficient Index Advisor Utilizing Large Language Model.
Xinxin Zhao, Haoyang Li, Jing Zhang^*, Xinmei Huang, Tieying Zhang, Jianjun Chen, Rui Shi, Cuiping Li, Hong Chen
arXiv:2503.07884.

E2ETune: End-to-End Knob Tuning via Fine-tuned Generative Language Model.
Xinmei Huang, Haoyang Li, Jing Zhang^*, Xinxin Zhao, Zhiming Yao, Yiyan Li, Tieying Zhang, Jianjun Chen, Hong Chen, Cuiping Li
VLDB'26.

OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale.
Haoyang Li, Shang Wu, Xiaokang Zhang, Xinmei Huang, Jing Zhang^*, Fuxin Jiang, Shuai Wang, Tieying Zhang, Jianjun Chen, Rui Shi, Hong Chen, Cuiping Li
VLDB'25.

Dynamic Scaling of Unit Tests for Code Reward Modeling.
Zeyao Ma, Xiaokang Zhang, Jing Zhang^*, Jifan Yu, Sijia Luo, Jie Tang
ACL'25.

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering.
Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang^*, Qi Li, Ke Xu
arXiv:2503.06492.
benchmark

LoRS: Efficient Low-Rank Adaptation for Sparse Large Language Model.
Yuxuan Hu, Jing Zhang^*, Xiaodong Chen, Zhe Zhao, Cuiping Li, Hong Chen
arXiv:2501.08582.

SAM Decoding: Speculative Decoding via Suffix Automaton.
Yuxuan Hu, Ke Wang, Xiaokang Zhang, Fanjin Zhang, Cuiping Li, Hong Chen, Jing Zhang^*
ACL'25.

P^2Law: Scaling Law for Post-Training After Model Pruning.
Xiaodong Chen, Yuxuan Hu, Xiaokang Zhang, Yanling Wang, Cuiping Li, Hong Chen, Jing Zhang^*
ACL'25.

Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL.
Hanbing Liu, Haoyang Li, Xiaokang Zhang, Ruotong Chen, Haiyong Xu, Tian Tian, Qi Qi, Jing Zhang^*
ACL'25.

CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis.
Bohan Zhang, Xiaokang Zhang, Jing Zhang^*, Jifan Yu, Sijia Luo, Jie Tang
ACL'25.

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios.
Xiaokang Zhang, Sijia Luo, Bohan Zhang, Zeyao Ma, Jing Zhang^*, Yang Li, Guanlin Li, Zijun Yao, Kangli Xu, Jinchang Zhou, Daniel Zhang-Li, Jifan Yu, Shu Zhao, Juanzi Li, Jie Tang
Findings of ACL'25.
code&model&data&demo

Compressing Large Language Models by Streamlining the Unimportant Layer.
Xiaodong Chen, Yuxuan Hu, Jing Zhang^*,Yanling Wang, Cuiping Li, Hong Chen
ICLR'25.

A Solution-based LLM API-using Methodology for Academic Information Seeking.
Yuanchun Wang, Jifan Yu, Zijun Yao, Jing Zhang^*, Yuyang Xie, Shangqing Tu, Yiyang Fu, Youhe Feng, Jinkai Zhang, Jingyao Zhang, Bowen Huang, Yuanyao Li, Huihui Yuan, Lei Hou, Juanzi Li, Jie Tang
KDD'25.
code model checkpoint demo benchmark

Large Language Model for Table Processing: A Survey.
Weizheng Lu, Jing Zhang^*, Ju Fan, Zihao Fu, Yueguo Chen, Xiaoyong Du
Frontiers of Computer Science (FCS'24).

SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation.
Zeyao Ma, Bohan Zhang, Jing Zhang^*, Jifan Yu, Xiaokang Zhang, Xiaohan Zhang, Sijia Luo, Xi Wang, Jie Tang
Neurips'24.
code&data

PowerPM: Foundation Model for Power Systems.
Shihao Tu, Yupeng Zhang, Jing Zhang, Zhendong Fu, Yin Zhang, and Yang Yang.
Neurips'24.

PCQPR: Proactive Conversational Question Planning with Reflection.
Shasha Guo, Lizi Liao, Jing Zhang, Cuiping Li, Hong Chen
EMNLP'24.

R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models.
Shangqing Tu, Yuanchun Wang, Jifan Yu, Yuyang Xie, Yaran Shi, Xiaozhi Wang, Jing Zhang^*, Lei Hou, Juanzi Li
KDD'24.
code&data

Transferable and Efficient Non-Factual Content Detection via Probe Training with Offline Consistency Checking.
Xiaokang Zhang, Zijun Yao, Jing Zhang^*, Kaifeng Yun, Jifan Yu, Juanzi Li, Jie Tang
ACL'24.

AlignBench: Benchmarking Chinese Alignment of Large Language Models.
Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, Jie Tang
ACL'24.

SP^3: Enhancing Structured Pruning via PCA Projection.
Yuxuan Hu, Jing Zhang^*, Zhe Zhao, Chen Zhao, Xiaodong Chen, Cuiping Li, Hong Chen.
Findings of ACL'24.

Hidden Question Representations Tell Non-Factuality Within and Across Large Language Models.
Yanling Wang, Haoyang Li, Hao Zou, Jing Zhang, Xinlei He, Qi Li, Ke Xu
arXiv:2406.05328.

CodeS: Towards Building Open-source Language Models for Text-to-SQL.
Haoyang Li, Jing Zhang^*, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, Hong Chen.
SIGMOD'24.
code&model&data

Disentangling Domain and General Representations for Time Series Classification.
Youmin Chen, Xinyu Yan, Yang Yang, Jianfeng Zhang, Jing Zhang, Lujia Pan, Juren Li
IJCAI'24.

Authorship style transfer with inverse transfer data augmentation.
Zhonghui Shao, Jing Zhang^*, Haoyang Li, Xinmei Huang, Chao Zhou, Yuanchun Wang, Jibing Gong, Cuiping Li, Hong Chen
AI Open'24.

Open-World Semi-Supervised Learning for Node Classification.
Yanling Wang, Jing Zhang^*, Lingxi Zhang, Lixin Liu, Yuxiao Dong, Cuiping Li, Hong Chen, Hongzhi Yin.
ICDE'24.

A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation.
Jifan Yu, Xiaohan Zhang, Yifan Xu, Xuanyu Lei, Zijun Yao, Jing Zhang, Lei Hou, Juanzi Li
LREC-COLING'24.

Diversifying Question Generation over Knowledge Base via External Natural Questions.
Shasha Guo, Jing Zhang^*, Xirui Ke, Cuiping Li, Hong Chen
LREC-COLING'24.

SGSH: Stimulate Large Language Models with Skeleton Heuristics for Knowledge Base Question Generation.
Shasha Guo, Lizi Liao, Jing Zhang^*, Yanling Wang, Cuiping Li, Hong Chen
Findings of NAACL'24.

A Generation-based Deductive Method for Math Word Problems.
Yuxuan Hu, Jing Zhang^*, Haoyang Li, Cuiping Li, Hong Chen.
EMNLP'23.

FFAEval: Evaluating Dialogue System via Free-For-All Ranking.
Zeyao Ma, Zijun Yao, Jing Zhang^*, Jifan Yu, Xiaohan Zhang, Juanzi Li, Jie Tang.
Findings of EMNLP'23.

GLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue Generation.
Jing Zhang, Xiaokang Zhang, Daniel Zhang-Li, Jifan Yu, Zijun Yao, Zeyao Ma, Yiqi Xu, Haohua Wang, Xiaohan Zhang, Nianyi Lin, Sunrui Lu, Juanzi Li, Jie Tang.
KDD'23 (ADS).

Web-Scale Academic Name Disambiguation: the WhoIsWho Benchmark, Leaderboard, and Toolkit.
Bo Chen, Jing Zhang^*, Fanjin Zhang, Tianyi Han, Yuqing Cheng, Xiaoyan Li, Yuxiao Dong, Jie Tang.
KDD'23 (ADS).

FC-KBQA: A Fine-to-Coarse Composition Framework for Knowledge Base Question Answering.
Lingxi Zhang, Jing Zhang^*, Yanling Wang, Shulin Cao, Xinmei Huang, Cuiping Li, Hong Chen, Juanzi Li.
ACL'23.

Chain of Thought Prompting Elicits Knowledge Augmentation.
Dingjun Wu, Jing Zhang^*, Xinmei Huang.
Findings of ACL'23.

RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL.
Haoyang Li, Jing Zhang^*, Cuiping Li, Hong Chen.
AAAI'23.

A survey on complex factual question answering.
Lingxi Zhang, Jing Zhang^*, Xirui Ke, Haoyang Li, Xinmei Huang, Zhonghui Shao, Shulin Cao, Xin Lv.
AI Open'22.

Graph Contrastive Learning for Anomaly Detection.
Bo Chen, Jing Zhang^*, Xiaokang Zhang, Yuxiao Dong, Jian Song, Peng Zhang, Kaibo Xu, Evgeny Kharlamov, Jie Tang.
TKDE'22.

DSM: Question Generation over Knowledge Base via Modeling Diverse Subgraphs with Meta-learner.
Shasha Guo, Jing Zhang^*, Yanling Wang, Qianyi Zhang, Cuiping Li and Hong Chen.
EMNLP'22.

Knowledge-augmented Self-training of A Question Rewriter for Conversational Knowledge Base Question Answering.
Xirui Ke, Jing Zhang^*, Xin Lv, Yiqi Xu, Shulin Cao, Cuiping Li, Hong Chen and Juanzi Li.
Findings of EMNLP'22 (Findings of the Association for Computational Linguistics: EMNLP 2022).

XDAI: A Tuning-free Framework for Exploiting Pre-trained Language Models in Knowledge Grounded Dialogue Generation.
Jifan Yu, Xiaohan Zhang, Yifan Xu, Xuanyu Lei, Xinyu Guan, Jing Zhang, Lei Hou, Juanzi Li, and Jie Tang.
KDD'22.

Subgraph Retrieval Enhanced Model for Multi-hop Knowledge Base Question Answering.
Jing Zhang, Xiaokang Zhang, Jifan Yu, Jian Tang, Jie Tang, Cuiping Li, Hong Chen.
ACL'22.

HOSMEL: A Hot-Swappable Modulized Entity Linking Toolkit for Chinese.
Daniel Zhang-Li, Jing Zhang^*, Jifan Yu, Xiaokang Zhang, Peng Zhang, Jie Tang, Juanzi Li.
ACL'22 (Demo).

ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs.
Yanling Wang, Jing Zhang^*, Haoyang Li, Yuxiao Dong, Hongzhi Yin, Cuiping Li, Hong Chen.
WWW'22.

CODE: Contrastive Pre-training with Adversarial Fine-tuning for Zero-shot Expert Linking.
Bo Chen, Jing Zhang^*, Xiaokang Zhang, Xiaobin Tang, Lingfan Cai, Hong Chen, Cuiping Li, Peng Zhang, Jie Tang.
AAAI'22.

A Pretraining Numerical Reasoning Model for Ordinal Constrained Question Answering on Knowledge Base.
Yu Feng, Jing Zhang^*, Gaole He, Wayne Xin Zhao, Lemao Liu, Quan Liu, Cuiping Li, Hong Chen.
Findings of EMNLP'21 (Findings of the Association for Computational Linguistics: EMNLP 2021).

P-INT: A Path-based Interaction Model for Few-shot Knowledge Graph Completion.
Jingwen Xu, Jing Zhang^*, Xirui Ke, Yuxiao Dong, Hong Chen, Cuiping Li, Yongbin Liu.
Findings of EMNLP'21 (Findings of the Association for Computational Linguistics: EMNLP 2021).

Neural, symbolic and neural-symbolic reasoning on knowledge graphs.
Jing Zhang, Bo Chen, Lingxi Zhang, Xirui Ke and Haipeng Ding.
AI Open'21.

Decoupling Representation Learning and Classification for GNN-based Anomaly Detection.
Yanling Wang, Jing Zhang^*, Hongzhi Yin, Cuiping Li, and Hong Chen.
SIGIR'21 (Proceedings of the 44rd ACM International SIGIR Conference on Research and Development in Information Retrieval).

OAG_know: Self-supervised Learning for Linking Knowledge Graphs.
Xiao Liu, Li Mian, Yuxiao Dong, Fanjin Zhang, Jing Zhang, Jie Tang, Peng Zhang, Jibing Gong, and Kuansan Wang.
TKDE'21 (IEEE Transaction on Knowledge and Data Engineering).

GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training.
Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, and Jie Tang.
KDD'20 (Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining).

BERT-INT: A BERT-based Interaction Model For Knowledge Graph Alignment.
Xiaobin Tang, Jing Zhang^*, Bo Chen, Yang Yang, Hong Chen, Cuiping Li.
IJCAI'20 (Proceedings of the 29th International Joint Conference on Artificial Intelligence).

CONNA: Addressing Name Disambiguation on The Fly.
Bo Chen, Jing Zhang^*, Jie Tang, Lingfan Cai, Zhaoyu Wang, Shu Zhao, Hong Chen, and Cuiping Li.
TKDE'20 (IEEE Transaction on Knowledge and Data Engineering).

Robust Network Enhancement from Flawed Networks.
Jiarong Xu, Yang Yang, Chunping Wang, Zongtao Liu, Jing Zhang, Lei Chen and Jiangang Lu.
TKDE'20 (IEEE Transaction on Knowledge and Data Engineering).

JarKA: Modeling Attribute Interactions for Cross-lingual Knowledge Alignment.
Bo Chen, Jing Zhang^*, Xiaobin Tang, Hong Chen, Cuiping Li.
PAKDD'20 (Proceedings of the 24th Pacific-Asia Conference on Knowledge Discovery and Data Mining).

Graph Convolutional Network using a Reliability-based Feature Aggregation Mechanism.
Yanling Wang, Cuiping Li, Jing Zhang, Peng Ni, Hong Chen.
DASFAA'20 (Proceedings of the 5th International Conference on Database Systems for Advanced Applications).

Trust Relationship Prediction in Alibaba E-Commerce Platform.
Yukuo Cen, Jing Zhang^*, Gaofei Wang, Yujie Qian, Chuizheng Meng, Zonghong Dai, Hongxia Yang, Jie Tang.
TKDE'19 (IEEE Transaction on Knowledge and Data Engineering).

MEgo2Vec: Embedding Matched Ego Networks for User Alignment Across Social Networks.
Jing Zhang, Bo Chen, Xianming Wang, Hong Chen, Cuiping Li, Fengmei Jin, Guojie Song and Yutao Zhang.
CIKM'18 (Proceedings of the International Conference on Information and Knowledge Management).

Fast and Flexible Top-k Similarity Search on Large Networks.
Jing Zhang, Jie Tang, Cong Ma, Hanghang Tong, Yu Jing, Juanzi Li, Walter Luyten, and Marie-Francine Moens.
TOIS'17 (ACM Transactions on Information Systems).

Panther: Fast Top-k Similarity Search on Large Networks.
Jing Zhang, Jie Tang, Cong Ma, Hanghang Tong, Yu Jing, and Juanzi Li.
SIGKDD'15 (Proceedings of the 21rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining).
code&data Slides_PPT Slides_PDF Poster

A Unified Probabilistic Framework for Name Disambiguation in Digital Library.
Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang.
TKDE'12.

Students

I'm very lucky to have the opportunities to work with these brilliant students (ordered by year of enrollment).

Graduate Students

Zhiming Yao, Ph.D. student, Fall 2024 -
Yang Li, Ph.D. student, Fall 2024 -
Bohan Zhang, M.S. student, Fall 2024 -
Xiaodong Chen, M.S. student, Fall 2024 -
Guanlin Li, M.S. student, Fall 2024 -
Shang Wu, M.S. student, Fall 2024 -
Yuanchun Wang, Ph.D. student, Fall 2023 -
Xinxin Zhao, Ph.D. student, Fall 2023 - (Co-supervised with Prof. Cuiping Li)
Zeyao Ma, M.S. student, Fall 2023 -
Xinmei Huang, M.S. student, Fall 2023 -
Yuxuan Hu, Ph.D. student, Fall 2022 -
Xiaokang Zhang, M.S. student, Fall 2022 -
Zhonghui Shao, M.S. student, Fall 2022 -
Haoyang Li, Ph.D. student, Fall 2021 - (Co-supervised with Prof. Cuiping Li)
Shasha Guo, Ph.D. student, Fall 2020 - (Co-supervised with Prof. Cuiping Li)

Alumni

Yiqi Xu, M.S. 2022-2024. Thesis Title:Factuality detection method combining inside and outside information of Large Language Models, First Employment: Agricultural Bank of China
Xirui Ke, M.S. 2021-2024. Thesis Title:Knowledge Base Question Answering Based on Pre-trained Language Models, First Employment: JingDong
Lingxi Zhang, M.S. 2021-2024. Thesis Title:Generalization of knowledge base question answering, First Employment: Pursuing a Ph.D. in Computer Science at Rice University
Yanling Wang, Ph.D., 2018-2023. Dissertation Title: Research on Graph Contrastive Learning for Complex Scenes (Co-supervised with Prof. Cuiping Li), First Employment: Zhongguancun Laboratory
Jingwen Xu, M.S., 2020-2023. Thesis Title: Few-shot Knowledge Graph Completion Based on Path Interaction Supervised Learning and Large Language Model Prompt Learning, First Employment: China Construction Bank
Chenxu Hu, M.S., 2020-2022. Thesis Title: Metadata Management under Multi-model Big Data Systems (Co-supervised with Prof. Feng Zhang), First Employment: Haizhixingtu
Xiaobin Tang, M.S., 2019-2022. Thesis Title: Interaction and Self-training based Methods for Entity Alignment, First Employment: China Tobacco
Xiangying Cao, M.S., 2019-2021. Thesis Title: Entity Linking-based Disambiguation of Academic Institution Names, First Employment: People's Bank of China
Lingfan Cai, M.S., 2018-2021. Thesis Title: The optimization of zero-shot entity linking, First Employment: CITIC Securities
Bowen Hao, Ph.D., 2017-2022. Dissertation Title: A Research on User Profile Denoising and Cold-start Issue in Recommender System (Co-supervised with Prof. Cuiping Li). First Employment: Assistant Professor, Capital Normal University
Bo Chen, M.S., 2017-2020. Thesis Title: Knowledge Graph Integration and Entity Linking from Multi-Sources (Co-supervised with Prof. Hong Chen). First Employment: Pursuing a Ph.D. in Computer Science and Technology at Tsinghua University

Invited Talks

2024: Invited Talk about Enhancing Students' Engineering Skills with Large Models at NDBC 2024. slides
2024: Invited Talk about StructureDataLLM at WAIC 2024. slides
2024: Invited Talk about LLM Alignment at YOCSEF 2024. slides
2024: Invited Talk about LLM4DB at Huawei.
2023: Invited Talk about StructruedDataLLM at the 11th China National Conference on Social Media Processing.
2023: Invited Talk about Integrating Structured Data With LLM at School of Computer Science & Techonlogy, Anhui University.
2023: Invited Talk about Integrating Structured Data With LLM by CCF Database Special Committee.
2023: Invited Talk about ChatGPT at PingCAP.
2022: Invited Talk about Graph Contrastive Learning at BAAI Seminar 2022. slides
2022: Invited Talk about Knowledge Graph Question Answering on WAIC 2022. slides
2021: Invited Talk about Neural-Symbolic Reasoning on Knowledge Graphs on CCKS 2021. slides
2021: Invited Talk about Knowledge Graph Question Answering on CNCC 2021. slides
2021: Invited Talk about Graph Self-supervised Learning on CCAI 2021. slides
2021: Invited Talk about Neural-Symbolic Reasoning on Knowledge Graphs at BAAI Seminar. slides
2021: Invited Talk about Graph Self-supervised Learning at School of Computer Science & Technology, HUST.
2020: Invited Talk at NLPCC 2020 Student Workshop. slides
2019: Invited Talk at Sino-German International Seminar. slides
2018: Invited Talk at ACML 2018 Workshop on Machine Learning in Education. slides

Professional Services

Journal Editors:

Associate Editor of IEEE TBD, 2023--
Associate Editor of AI OPEN, 2020--

Conference PC members:

2025: KDD, WWW (SPC), ARR(AC), ICLR
2024: KDD, WWW, AAAI, ARR, NeurIPS
2023: KDD, WWW (SPC), AAAI, ECML/PKDD (SPC)
2022: KDD, WWW, IJCAI, AAAI, WSDM
2021: KDD, WWW, IJCAI, ECML/PKDD (SPC)
2020: KDD, WWW, IJCAI, ECML/PKDD

Journal Reviewers:

TKDE, IEEE Transactions on Knowledge and Data Engineering
TOIS, ACM Transactions on Information Systems
TPAMI, Transactions on Pattern Analysis and Machine Intelligence
TKDD, ACM Transactions on the Knowledge Discovery from Data
TWEB, ACM Transactions on the Web
TBD, IEEE Transactions on Big Data
JCST, Journal of Computer Science and Technology
JASIST, Journal of the Association for Information Science and Technology
SCIENCE CHINA Information Sciences

Teaching

2021- Data Structure and Algorithm
2020- Deep Learning

Contact: zhang-jing AT ruc DOT edu DOT cn