15 4

Levy

dolev31

AI & ML interests

None yet

Recent Activity

upvoted a paper 2 days ago

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

upvoted a paper 18 days ago

Efficient Agent Evaluation via Diversity-Guided User Simulation

upvoted a paper about 2 months ago

Alignment Makes Language Models Normative, Not Descriptive

View all activity

Organizations

upvoted a paper 2 days ago

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Paper • 2605.10616 • Published 5 days ago • 130

upvoted a paper 18 days ago

Efficient Agent Evaluation via Diversity-Guided User Simulation

Paper • 2604.21480 • Published 23 days ago • 15

upvoted a paper about 2 months ago

Alignment Makes Language Models Normative, Not Descriptive

Paper • 2603.17218 • Published Mar 17 • 46

updated a Space 2 months ago

ST-WebAgentBench Leaderboard

🛡

Safety & Trustworthiness Leaderboard for Web Agents

updated a dataset 2 months ago

ST-WebAgentBench/st-webagentbench

Viewer • Updated Mar 12 • 3.06k • 981 • 5

upvoted a paper 2 months ago

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Paper • 2603.09906 • Published Mar 10 • 75

liked a Space 3 months ago

ST-WebAgentBench Leaderboard

🛡

Safety & Trustworthiness Leaderboard for Web Agents

published a Space 3 months ago

ST-WebAgentBench Leaderboard

🛡

Safety & Trustworthiness Leaderboard for Web Agents

upvoted a paper 3 months ago

STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Paper • 2602.14265 • Published Feb 15 • 21

upvoted a collection 3 months ago

Enterprise Agents and Benchmarks

Collection

Enterprise agent ecosystem featuring AssetOpsBench (industrial) and ITBench (SRE, FinOps, CISO), CUGA to accelerate AI Automation • 18 items • Updated 2 days ago • 16

liked a Space 5 months ago

CUGA Agent

🤖

103

Configurable Generalist Agent, leader in AppWorld Benchmark

liked a dataset 6 months ago

ST-WebAgentBench/st-webagentbench

Viewer • Updated Mar 12 • 3.06k • 981 • 5

liked a Space 11 months ago

Click2Mask (AAAI 2025)

🔵

Official Demo for Click2Mask (AAAI 2025)

upvoted a paper 11 months ago

Effective Red-Teaming of Policy-Adherent Agents

Paper • 2506.09600 • Published Jun 11, 2025 • 39

upvoted 2 papers 12 months ago

Multi-Domain Explainability of Preferences

Paper • 2505.20088 • Published May 26, 2025 • 20

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

Paper • 2505.18125 • Published May 23, 2025 • 112

upvoted a paper about 1 year ago

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

Paper • 2410.06703 • Published Oct 9, 2024 • 3

published a dataset about 1 year ago

ST-WebAgentBench/st-webagentbench

Viewer • Updated Mar 12 • 3.06k • 981 • 5

upvoted 2 papers about 1 year ago

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

Paper • 2503.19693 • Published Mar 25, 2025 • 76

Inside-Out: Hidden Factual Knowledge in LLMs

Paper • 2503.15299 • Published Mar 19, 2025 • 56

Levy

AI & ML interests

Recent Activity

Organizations

dolev31's activity

ST-WebAgentBench Leaderboard

ST-WebAgentBench Leaderboard

ST-WebAgentBench Leaderboard

CUGA Agent

Click2Mask (AAAI 2025)