UW RAIVN Lab Research

Preprints

MatFormer: Nested Transformer for Elastic Inference

Devvrit*, Sneha Kudugunta*, Aditya Kusupati*, Tim Dettmers, Kaifeng Chen, Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali Farhadi, Prateek Jain

pdf

EcoAssistant: Using LLM Assistant More Affordably and Accurately

Jieyu Zhang, Ranjay Krishna, Ahmed H. Awadallah, Chi Wang

pdf code

Cultural and Linguistic Diversity Improves Visual Representations

Andre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna

pdf

MIMIC: Masked Image Modeling with Image Correspondences

Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna

pdf code

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

pdf

2024

Selective Visual Representations Improve Convergence and Generalization for Embodied-AI

Ainaz Eftekhar*, Kuo-Hao Zeng*, Jiafei Duan, Ali Farhadi, Ani Kembhavi, Ranjay Krishna

ICLR 2024

pdf

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building

Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, Magdalena Balazinska

VLDB 2024

pdf

2023

Objaverse-XL: A Universe of 10M+ 3D Objects

Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, Eli VanderBilt, Aniruddha Kembhavi, Carl Vondrick, Georgia Gkioxari, Kiana Ehsani, Ludwig Schmidt, Ali Farhadi

NeurIPS 2023

pdf code project page

SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality

Cheng-Yu Hsieh*, Jieyu Zhang*, Zixian Ma, Aniruddha Kembhavi, Ranjay Krishna

NeurIPS 2023

pdf code

DataComp: In search of the next generation of multimodal datasets

Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt.

NeurIPS 2023

pdf project page

OBJECT 3DIT: Language-guided 3D-aware Image Editing

Oscar Michel, Anand Bhattad, Eli VanderBilt, Ranjay Krishna, Aniruddha Kembhavi, Tanmay Gupta

NeurIPS 2023

pdf project page

Quilt-1M: One Million Image-Text Pairs for Histopathology

Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro

NeurIPS 2023

pdf code

AR2-D2:Training a Robot Without a Robot

Jiafei Duan, Yi Ru Wang, Mohit Shridhar, Dieter Fox, Ranjay Krishna

CoRL 2023

pdf project page

CREPE: Can Vision-Language Foundation Models Reason Compositionally?

Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna

CVPR 2023

pdf

Objaverse: A Universe of Annotated 3D Objects

Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, Ali Farhadi

CVPR 2023

pdf project page

Phone2Proc: Bringing Robust Robots Into Our Chaotic World

Matt Deitke, Rose Hendrix, Luca Weihs, Ali Farhadi, Kiana Ehsani, Aniruddha Kembhavi

CVPR 2023

pdf project page

Editing Models with Task Arithmetic

Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi

ICLR 2023

pdf code

Explanations can Reduce Overreliance on AI Systems during Decision-Making

Helena Vasconcelos, Matthew Jorke, Madeleine Grunde-McLaughlin, Tobias Gerstenberg, Michael Bernstein, Ranjay Krishna

CSCW 2023

pdf

lo-fi: distributed fine-tuning without communication

Mitchell Wortsman, Suchin Gururangan, Shen Li, Ali Farhadi, Ludwig Schmidt, Michael Rabbat, Ari S. Morcos

TMLR

pdf

Neural Radiance Field Codebooks

Matthew Wallingford, Aditya Kusupati, Alex Fang, Vivek Ramanujan, Aniruddha Kembhavi, Roozbeh Mottaghi, Ali Farhadi

ICLR 2023

pdf

Impossibly Good Experts and How to Follow Them

Aaron Walsman, Muru Zhang, Sanjiban Choudhury, Dieter Fox, Ali Farhadi

ICLR 2023

pdf

Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics

Kuo-Hao Zeng, Luca Weihs, Roozbeh Mottaghi, Ali Farhadi

ICLR 2023

pdf project page

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister

ACL 2023 (Findings)

pdf

Agile Modeling: From Concept to Classifier in Minutes

Otilia Stretcu, Edward Vendrow, Kenji Hata, Krishnamurthy Viswanathan, Vittorio Ferrari, Sasan Tavakkol, Wenlei Zhou, Aditya Avinash, Enming Luo, Neil Gordon Alldrin, MohammadHossein Bateni, Gabriel Berger, Andrew Bunner, Chun-Ta Lu, Javier A Rey, Giulia DeSalvo, Ranjay Krishna, Ariel Fuxman

ICCV 2023

pdf

What does a platypus look like? Generating customized prompts for zero-shot image classification

Sarah Pratt, Ian Covert, Rosanne Liu, Ali Farhadi

ICCV 2023

pdf code

TIFA: Text-to-Image Faithfulness Evaluation with Question Answering

Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A. Smith

ICCV 2023

pdf project page

Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias

Yue Yu*, Yuchen Zhuang*, Jieyu Zhang*, Yu Meng, Alexander Ratner, Ranjay Krishna, Jiaming Shen, Chao Zhang

NeurIPS 2023

pdf code

EQUI-VOCAL: Synthesizing Queries for Compositional Video Events from Limited User Interactions

Enhao Zhang, Maureen Daum, Dong He, Brandon Haynes, Ranjay Krishna, Magdalena Balazinska

VLDB 2023

pdf

Cola: How to adapt vision-language models to Compose Objects Localized with Attributes?

Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko

NeurIPS 2023

pdf project page

Stable and low-precision training for large-scale vision-language models

Mitchell Wortsman, Tim Dettmers, Luke Zettlemoyer, Ari Morcos, Ali Farhadi, Ludwig Schmidt

NeurIPS 2023

pdf

AdANNS: A Framework for Adaptive Semantic Search

Aniket Rege, Aditya Kusupati, Sharan Ranjit S, Alan Fan, Qingqing Cao, Sham Kakade, Prateek Jain, Ali Farhadi

NeurIPS 2023

pdf code

Improving Multimodal Datasets with Image Captioning

Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt

NeurIPS 2023

pdf

Neural Priming for Sample-Efficient Adaptation

Matthew Wallingford, Vivek Ramanujan, Alex Fang, Aditya Kusupati, Roozbeh Mottaghi, Aniruddha Kembhavi, Ludwig Schmidt, Ali Farhadi

NeurIPS 2023

pdf code

MADLAD-400: Monolingual And Document-Level Large Audited Dataset

Sneha Kudugunta, Isaac Rayburn Caswell, Biao Zhang, Xavier Garcia, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat

NeurIPS 2023

pdf

On the Connection between Pre-training Data Diversity and Fine-tuning Robustness

Vivek Ramanujan, Thao Nguyen, Sewoong Oh, Ludwig Schmidt, Ali Farhadi

NeurIPS 2023

pdf

SHARCS: Efficient Transformers through Routing with Dynamic Width Sub-networks

Mohammadreza Salehi, Sachin Mehta, Aditya Kusupati, Ali Farhadi, Hannaneh Hajishirzi

EMNLP Findings 2023

pdf

2022

ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi Salvador, Kiana Ehsani, Winson Han, Eric Kolve, Ali Farhadi, Aniruddha Kembhavi, Roozbeh Mottaghi

NeurIPS 2022 | Outstanding Paper Award

pdf project page

LAION-5B: An open large-scale dataset for training next generation image-text models

Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, Patrick Schramowski, Srivatsa Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk, Jenia Jitsev

NeurIPS 2022 Datasets and Benchmarks track | Outstanding Paper Award

pdf project page

MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi

CVPR 2022

pdf project page

LCS: Learning Compressible Subspaces for Adaptive Network Compression at Inference Time

Elvis Nunez*, Maxwell Horton*, Anish Prabhu, Anurag Ranjan, Ali Farhadi, Mohammad Rastegari

pdf

The Introspective Agent: Interdependence of Strategy, Physiology, and Sensing for Embodied Agents

Sarah Pratt, Luca Weihs, Ali Farhadi

pdf code

ProtoSound: A Personalized and Scalable Sound Recognition System for Deaf and Hard-of-Hearing Users

Dhruv Jain, Khoa Huynh Anh Nguyen, Steven Goodman, Rachel Grossman-Kahn, Hung Ngo, Aditya Kusupati, Ruofei Du, Alex Olwal, Leah Findlater, Jon E. Froehlich

CHI 2022

pdf

Searching for Computer Vision North Stars

Li Fei-Fei, Ranjay Krishna

Book: Daedalus Special issue on "AI & Society" | Daedalus Spring 2022

pdf project page

VOCAL: Video Organization and Interactive AnaLytics

Maureem Daum*, Enhao Zhang*, Dong He, Magdalena Balazinska, Brandon Hayes, Ranjay Krishna, Apryle Craig, Aaron Wirsing

CIDR 2022

pdf

Measuring Compositional Consistency for Video Question Answering

Mona Gandhi*, Mustafa Omer Gul*, Eva Prakash, Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala

CVPR 2022

pdf

Forward Compatible Training for Representation Learning

Vivek Ramanujan, Pavan Kumar Anasosalu Vasu, Ali Farhadi, Oncel Tuzel, Hadi Pouransari

CVPR 2022

pdf

Robust fine-tuning of zero-shot models

Mitchell Wortsman*, Gabriel Ilharco*, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt

CVPR 2022 | Best Paper Honorable Mention

pdf code

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon*, Simon Kornblith*, Ludwig Schmidt*

ICML 2022

pdf code

Exposing the Limits of Video-Text Models through Contrast Sets

Jae Sung Park, Sheng Shen, Ali Farhadi, Trevor Darrell, Yejin Choi, Anna Rohrbach

NAACL 2022

pdf

Object Manipulation via Visual Target Localization

Kiana Ehsani, Ali Farhadi, Aniruddha Kembhavi, Roozbeh Mottaghi

ECCV 2022

pdf

Break and Make: Interactive Structural Understanding Using LEGO Bricks

Aaron Walsman, Muru Zhang, Klemen Kotar, Karthik Desingh, Ali Farhadi, Dieter Fox

ECCV 2022

pdf code

Socially situated artificial intelligence enables learning from human interaction

Ranjay Krishna, Donsuk Lee, Li Fei-Fei*, Michael Bernstein

PNAS 2022

pdf

Matryoshka Representation Learning

Aditya Kusupati*, Gantavya Bhatt*, Aniket Rege*, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi

NeurIPS 2022

pdf code

Patching open-vocabulary models by interpolating weights

Gabriel Ilharco*, Mitchell Wortsman*, Samir Yitzhak Gadre*, Shuran Song, Hannaneh Hajishirzi, Simon Kornblith, Ali Farhadi, Ludwig Schmidt

NeurIPS 2022

pdf code

ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward

Zixian Ma, Rose Wang, Li Fei-Fei, Michael Bernstein, Ranjay Krishna

NeurIPS 2022

pdf

2021

MERLOT: Multimodal Neural Script Knowledge Models

Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi, Yejin Choi

NeurIPS 2021

pdf project page

Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping

Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh Hajishirzi, Noah A. Smith

pdf

Watching the World Go By: Representation Learning from Unlabeled Videos

Daniel Gordon, Kiana Ehsani, Dieter Fox, Ali Farhadi

pdf project page code

Are We Overfitting to Experimental Setups in Recognition?

Matthew Wallingford, Aditya Kusupati*, Keivan Alizadeh-Vahid*, Aaron Walsman, Aniruddha Kembhavi, Ali Farhadi

pdf code project page

AllenAct: A Framework for Embodied AI Research

Luca Weihs, Jordi Salvador, Klemen Kotar, Unnat Jain, Kuo-Hao Zeng, Roozbeh Mottaghi, Aniruddha Kembhavi

pdf code project page

Layer-Wise Data-Free CNN Compression

Maxwell Horton, Yanzi Jin, Ali Farhadi, Mohammad Rastegari

pdf

MultiModalQA: complex question answering over text, tables and images

Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi, Jonathan Berant

ICLR 2021

pdf

Learning Generalizable Visual Representations via Interactive Gameplay

Luca Weihs, Aniruddha Kembhavi, Kiana Ehsani, Sarah Pratt, Winson Han, Alvaro Herrasti, Eric Kolve, Dustin Schwenk, Roozbeh Mottaghi, Ali Farhadi

ICLR 2021

pdf

What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions

Kiana Ehsani, Daniel Gordon, Thomas Nguyen, Roozbeh Mottaghi, Ali Farhadi

ICLR 2021

pdf code

ManipulaTHOR: A Framework for Visual Object Manipulation

Kiana Ehsani, Winson Han, Alvaro Herrasti, Eli VanderBilt, Eric Kolve, Luca Weihs, Aniruddha Kembhavi, Roozbeh Mottaghi

CVPR 2021

pdf code

Pushing it out of the Way: Interactive Visual Navigation

Kuo-Hao Zeng, Luca Weihs, Ali Farhadi, Roozbeh Mottaghi

CVPR 2021

pdf project page code

TuringAdvice: A Generative and Dynamic Evaluation of Language Use

Rowan Zellers, Ari Holtzman, Elizabeth Clark, Lianhui Qin, Ali Farhadi, Yejin Choi

NAACL 2021

pdf project page

Probing Text Models for Common Ground with Visual Representations

Gabriel Ilharco, Rowan Zellers, Ali Farhadi, Hannaneh Hajishirzi

NAACL 2021

pdf

Learning Neural Network Subspaces

Mitchell Wortsman, Maxwell Horton, Carlos Guestrin, Ali Farhadi, Mohammad Rastegari

ICML 2021

pdf code

PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World

Rowan Zellers, Ari Holtzman, Matthew Peters, Roozbeh Mottaghi, Aniruddha Kembhavi, Ali Farhadi, Yejin Choi

ACL 2021

pdf project page

Contrasting Contrastive Self-Supervised Representation Learning Models

Klemen Kotar, Gabriel Ilharco, Ludwig Schmidt, Kiana Ehsani, Roozbeh Mottaghi

ICCV 2021

pdf

Deformable Neural Radiance Fields

Keunhong Park, Utkarsh Sinha, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Steven M. Seitz, Ricardo Martin-Brualla

ICCV 2021

pdf project page

Parameter Norm Growth During Training of Transformers

William Merrill, Vivek Ramanujan, Yoav Goldberg, Roy Schwartz, Noah A. Smith

EMNLP 2021

pdf

Finetuning Pretrained Transformers into RNNs

Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco, Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A Smith

EMNLP 2021

pdf

HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields

Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz

SIGGRAPH Asia 2021

pdf project page

LanguageRefer: Spatial-Language Model for 3D Visual Grounding

Junha Roh, Karthik Desingh, Ali Farhadi, Dieter Fox

CoRL 2021

pdf project page

LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes

Aditya Kusupati, Matthew Wallingford, Vivek Ramanujan, Raghav Somani, Jae Sung Park, Krishna Pillutla, Prateek Jain, Sham Kakade, Ali Farhadi

NeurIPS 2021

pdf code

FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category Modelling

Christopher Xie, Keunhong Park, Ricardo Martin-Brualla, Matthew Brown

3DV 2021

pdf project page

2020

RoboTHOR: An Open Simulation-to-Real Embodied AI Platform

Matt Deitke, Winson Han, Alvaro Herrasti, Aniruddha Kembhavi, Eric Kolve, Roozbeh Mottaghi, Jordi Salvador, Dustin Schwenk, Eli VanderBilt, Mathew Walingford, Luca Weihs, Mark Yatskar, Ali Farhadi

CVPR 2020

pdf project page

LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Estimation

Keunhong Park, Arsalan Mousavian, Yu Xiang, Dieter Fox

CVPR 2020

pdf code

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox

CVPR 2020

pdf project page code

Use the Force, Luke! Learning to Predict Physical Forces by Simulating Effects

Kiana Ehsani, Shubham Tulsiani, Saurabh Gupta, Ali Farhadi, Abhinav Gupta

CVPR 2020

pdf project page code

Butterfly Transform: An Efficient FFT Based Neural Architecture Design

Keivan Alizadeh-Vahid, Anish Prabhu, Ali Farhadi, Mohammad Rastegari

CVPR 2020

pdf code

Visual Reaction: Learning to Play Catch with Your Drone

Kuo-Hao Zeng, Roozbeh Mottaghi, Luca Weihs, Ali Farhadi

CVPR 2020

pdf code

What’s Hidden in a Randomly Weighted Neural Network?

Vivek Ramanujan*, Mitchell Wortsman*, Aniruddha Kembhavi, Ali Farhadi, Mohammad Rastegari

CVPR 2020

pdf code

Adversarial Filters of Dataset Biases

Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew Peters, Ashish Sabharwal, Yejin Choi

ICML 2020

pdf

Soft Threshold Weight Reparameterization for Learnable Sparsity

Aditya Kusupati, Vivek Ramanujan*, Raghav Somani*, Mitchell Wortsman*, Prateek Jain, Sham Kakade, Ali Farhadi

ICML 2020

pdf code project page

Identity Aware Multi-Sentence Video Description

Jae Sung Park, Trevor Darrell, Anna Rohrbach

ECCV 2020

pdf project page

Grounded Situation Recognition

Sarah Pratt, Mark Yatskar, Luca Weihs, Ali Farhadi, Aniruddha Kembhavi

ECCV 2020

pdf project page

Visual Commonsense Graphs: Reasoning about the Dynamic Context of a Still Image

Jae Sung Park, Chandra Bhagavatula, Roozbeh Mottaghi, Ali Farhadi, Yejin Choi

ECCV 2020

pdf project page

A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied Tasks

Unnat Jain, Luca Weihs, Eric Kolve, Ali Farhadi, Svetlana Lazebnik, Aniruddha Kembhavi, Alexander Schwing

ECCV 2020

pdf project page

RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference

Oindrila Saha, Aditya Kusupati, Harsha Vardhan Simhadri, Manik Varma, Prateek Jain

NeurIPS 2020

pdf code

Supermasks in Superposition

Mitchell Wortsman*, Vivek Ramanujan*, Rosanne Liu, Aniruddha Kembhavi, Mohammad Rastegari, Jason Yosinski, Ali Farhadi

NeurIPS 2020

pdf code

Multiple Topologies Prediction for Navigation at Unsignalized Intersections

Junha Roh*, Christoforos Mavrogiannis*, Rishabh Madan*, Dieter Fox, Siddhartha S. Srinivasa

CoRL 2020

pdf project page code

Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs

Ana Marasovic, Chandra Bhagavatula, Jae Sung Park, Ronan Le Bras, Noah A. Smith, Yejin Choi

EMNLP (Findings) 2020

pdf

2019

Visual Semantic Navigation using Scene Priors

Wei Yang, Xiaolong Wang, Ali Farhadi, Abhinav Gupta, Roozbeh Mottaghi

ICLR 2019

pdf

Shifting the Baseline: Single Modality Performance on Visual Navigation & QA

Jesse Thomason, Daniel Gordon, Yonatan Bisk

NAACL 2019 Short Papers

pdf

SplitNet: Sim2Sim and Task2Task Transfer for Embodied Visual Navigation

Daniel Gordon, Abhishek Kadian, Devi Parikh, Judy Hoffman, Dhruv Batra

ICCV 2019

pdf code

Two Body Problem: Collaborative Visual Task Completion

Unnat Jain, Luca Weihs, Eric Kolve, Mohammad Rastegari, Svetlana Lazebnik, Ali Farhadi, Alexander Schwing, Aniruddha Kembhavi

CVPR 2019

pdf

ELASTIC: Improving CNNs with Instance Specific Scaling Policies

Huiyu Wang, Aniruddha Kembhavi, Ali Farhadi, Alan Yuille, Mohammad Rastegari

CVPR 2019

pdf

Video Relationship Reasoning using Gated Spatio-Temporal Energy Graph

Yao-Hung Hubert Tsai, Santosh Divvala, Louis-Philippe Morency, Ruslan Salakhutdinov, Ali Farhadi

CVPR 2019

pdf

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Kenneth Marino, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi

CVPR 2019

pdf

From Recognition to Cognition: Visual Commonsense Reasoning

Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi

CVPR 2019

pdf project page code

Learning to Learn How to Learn:Self-Adaptive Visual Navigation Using Meta-Learning

Mitchell Wortsman, Kiana Ehsani, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi

CVPR 2019

pdf code

HellaSwag: Can a Machine Really Finish Your Sentence?

Rowan Zellers, A Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi

ACL 2019

pdf project page code

Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

Minjoon Seo, J Lee, Tom Kwiatkowski, AP Parikh, Ali Farhadi, Hannaneh Hajishirzi

ACL 2019

pdf code

Conditional Driving from Natural Language Instructions

Junha Roh, Chris Paxton, Andrezej Pronobis, Ali Farhadi, Dieter Fox

CoRL 2019

pdf project page code

Defending Against Neural Fake news

Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, Yejin Choi

NeurIPS 2019

pdf project page code

Discovering Neural Wirings

Mitchel Wortsman, Ali Farhadi, Mohammad Rastegari

NeurIPS 2019

pdf project page code

2018

AJILE Movement Prediction: Multimodal Deep Learning for Natural Human Neural Recordings and Video

Nancy Xin Ru Wang, Ali Farhadi, Rajesh Rao, Bingni Brunton

AAAI 2018

pdf

Re3: Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects

Daniel Gordon, Ali Farhadi, Dieter Fox

RAL 2018

pdf project page code

Neural Speed Reading via Skim-RNN

Minjoon Seo, Sewon Min, Ali Farhadi, Hannaneh Hajishirzi

ICLR 2018

pdf

IQA: Visual Question Answering in Interactive Environments

Daniel Gordon, Aniruddha Kembhavi, Mohammad Rastegari, Joseph Redmon, Dieter Fox, Ali Farhadi

CVPR 2018 | NVIDIA Pioneering Research Award

pdf project page code

Structured Set Matching Networks for One-Shot Part Labeling

Jonghyun Choi, Jayant Krishnamurthy, Aniruddha Kembhavi, Ali Farhadi

CVPR 2018

pdf

Actor and Observer: Joint Modeling of First and Third-Person Videos

Gunnar Sigurdsson, Abhinav Gupta, Cordelia Schmid, Ali Farhadi, Karteek Alahari

CVPR 2018

pdf

Segan: Segmenting and generating the invisible

Kiana Ehsani, Roozbeh Mottaghi, Ali Farhadi

CVPR 2018

pdf code

Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

Kiana Ehsani, Hessam Bagherinezhad, Joseph Redmon, Roozbeh Mottaghi, Ali Farhadi

CVPR 2018

pdf code

Transferring Common-Sense Knowledge for Object Detection

Krishna Kumar Singh, Santosh Kumar Divvala, Ali Farhadi, Yong Jae Lee

ECCV 2019

pdf

Imagine This! Scripts to Compositions to Videos

Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, Aniruddha Kembhavi

ECCV 2018

pdf

PhotoShape: Photorealistic Materials for Large-Scale Shape Collections

Keunhong Park, Konstantinos Rematas, Ali Farhadi, Steve Seitz

SIGGRAPH Asia 2018

pdf project page code

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Minjoon Seo, Tom Kwiatkowski, Ankur P. Parikh, Ali Farhadi, Hannaneh Hajishirzi

EMNLP 2018

pdf code

YOLOv3: An Incremental Improvement

Joseph Redmon, Ali Farhadi

pdf project page

Label refinery: Improving imagenet classification through label progression

Hessam Bagherinezhad, Maxwell Horton, Mohammad Rastegari, Ali Farhadi

pdf code

What Should I Do Now? Marrying Reinforcement Learning and Symbolic Planning

Daniel Gordon, Dieter Fox, Ali Farhadi

pdf project page

2017

AI2-THOR: An Interactive 3D Environment for Visual AI

Eric Kolve, Roozbeh Mottaghi, Winson Han, Eli VanderBilt, Luca Weihs, Alvaro Herrasti, Matt Deitke, Kiana Ehsani, Daniel Gordon, Yuke Zhu, Aniruddha Kembhavi, Abhinav Gupta, Ali Farhadi

pdf project page code

Semantic Highlight Retrieval and Term Prediction

Min Sun, Kuo-Hao Zeng, Yen-Chen Lin, Ali Farhadi

TIP 2017

pdf

Summarizing unconstrained videos using salient montages

Min Sun, Ali Farhadi, Ben Taskar, Steve Seitz

TPAMI 2017

pdf

Target-driven visual navigation in indoor scenes using deep reinforcement learning

Yuke Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph Lim, Abhinav Gupta, Fei-Fei Li, Ali Farhadi

ICRA 2017

pdf

Bidirectional Attention Flow for Machine Comprehension

Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi

ICLR 2017

pdf project page code

Query-Reduction Networks for Question Answering

Minjoon Seo, Sewon Min, Ali Farhadi, Hannaneh Hajishirzi

ICLR 2017

pdf code

Asynchronous Temporal Fields for Action Recognition

Gunnar A Sigurdsson, Santosh Divvala, Ali Farhadi, Abhinav Gupta

CVPR 2017

pdf

Commonly Uncommon: Semantic Sparsity in Situation Recognition

Mark Yatskar, Vicente Ordóñez, Luke Zettlemoyer, Ali Farhadi

CVPR 2017

pdf

LCNN: Lookup-based Convolutional Neural Network

Hessam Bagherinezhad, Mohammad Rastegari, Ali Farhadi

CVPR 2017

pdf code

Are You Smarter Than A Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension

Aniruddha Kembhavi, Minjoon Seo, Eric Klove, Dustin Schwenk, Hannaneh Hajishirzi, Ali Farhadi

CVPR 2017

pdf project page

YOLO9000: Better, Faster, Stronger

Joseph Redmon, Ali Farhadi

CVPR 2017 | Best Paper Honorable Mention

pdf project page

See the Glass Half Full: Reasoning about Liquid Containers, their Volume and Content

Roozbeh Mottaghi, Connor Schenck, Dieter Fox, Ali Farhadi

ICCV 2017

pdf

Visual Semantic Planning using Deep Successor Representations

Daniel Gordon*, Yuke Zhu*, Eric Kolve, Dieter Fox, Li Fei-Fei, Abhinav Gupta, Roozbeh Mottaghi, Ali Farhadi

ICCV 2017

pdf

2016

Toward a Taxonomy and Computational Models of Abnormalities in Images

Babak Saleh, Ahmed Elgammal, Jacob Feldman, Ali Farhadi

AAAI 2016 | Best Student Paper Award

pdf

Are Elephants Bigger than Butterflies? Reasoning about Sizes of Objects

Hessam Bagherinezhad, Hannaneh Hajishirzi, Yejin Choi, Ali Farhadi

AAAI 2016

pdf

Stating the Obvious: Extracting Visual Common Sense Knowledge

Mark Yatskar, Vicente Ordóñez, Ali Farhadi

NAACL 2016

pdf

Unsupervised Deep Embedding for Clustering Analysis

Junyuan Xie, Ross B. Girshick, Ali Farhadi

ICML 2016

pdf code

A Task-Oriented Approach for Cost-sensitive Recognition

Roozbeh Mottaghi, Hannaneh Hajishirzi, Ali Farhadi

CVPR 2016

pdf

Actions~Transformation

Xiaolong Wang, Ali Farhadi, Abhinav Gupta

CVPR 2016

pdf

Newtonian Image Understanding: Unfolding the Dynamics of Objects in Static Images

Roozbeh Mottaghi, Hessam Bagherinezhad, Mohammad Rastegari, Ali Farhadi

CVPR 2016

pdf project page

Situation Recognition: Visual Semantic Role Labeling for Image Understanding

Mark Yatskar, Luke Zettlemoyer, Ali Farhadi

CVPR 2016

pdf code

You Only Look Once: Unified, Real-Time Object Detection

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

CVPR 2016 | OpenCV People's Choice Award

pdf project page

FigureSeer:Parsing Result-Figures in Research Papers

Noah Siegel, Santosh Divvala, Ali Farhadi

ECCV 2016

pdf project page

Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding

Gunnar Sigurdsson, Gul Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, Abhinav Gupta

ECCV 2016

pdf project page

"What happens if..." Learning to predict the effect of forces in images

Roozbeh Mottaghi, Mohammad Rastegari, Abhinav Gupta, Ali Farhadi

ECCV 2016

pdf

A Diagram Is Worth A Dozen Images

Ani Kembhavi, Mike Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi

ECCV 2016

pdf code

Deep3D: Fully Automatic 2D-to-3D Video Conversion with Deep Convolutional Neural Networks

Junyuan Xie, Ross B. Girshick, Ali Farhadi

ECCV 2016

pdf code

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi

ECCV 2016

pdf code

2015

Learning to Select and Order Vacation Photographs

Fereshteh Sadeghi, J Rafael Tena, Ali Farhadi, Leonid Sigal

WACV 2015

pdf

Discriminative and Consistent Similarities in Instance-Level Multiple Instance Learning

Mohammad Rastegari, Hannaneh Hajishirzi, Ali Farhadi

CVPR 2015

pdf

VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases

Fereshteh Sadeghi, Santosh K Divvala, Ali Farhadi

CVPR 2015

pdf project page

Solving Geometry Problems: Combining Text and Diagram Interpretation

Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, Clint Malcolm

EMNLP 2015

pdf project page

Real-Time Grasp Detection Using Convolutional Neural Networks

Joseph Redmon, Anelia Angelova

ICRA 2015

pdf

VISALOGY: Answering Visual Analogy Questions

Fereshteh Sadeghi, Larry Zittnick, Ali Farhadi

NeurIPS 2015

pdf

Generating Notifications for Missing Actions: Don’t forget to turn the lights off!

Bilge Soran, Ali Farhadi, Linda Shapiro

ICCV 2015

pdf

Segment-Phrase Table for Semantic Segmentation, Visual Entailment and Paraphrasing

Hamid Izadinia, Fereshteh Sadeghi, Santosh K Divvala, Hannaneh Hajishirzi, Yejin Choi, Ali Farhadi

ICCV 2015

pdf

2014

Action Recognition in the Presence of One Egocentric and Multiple Static Cameras

Bilge Soran, Ali Farhadi, Linda Shapiro

ACCV 2014

pdf

Multi Resolution Language Grounding with Weak Supervision

Rik Koncel Kedziorski, Hannaneh Hajishirzi, and Ali Farhadi

EMNLP 2014

pdf

Diagram Understanding in Geometry Questions

Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni

AAAI 2014

pdf project page

Ranking Domain-Specific Highlights by Analyzing Edited Videos

Min Sun, Ali Farhadi, Steve Seitz

ECCV 2014

pdf

Salient montages from unconstrained videos

Min Sun, Ali Farhadi, Ben Taskar, Steve Seitz

ECCV 2014

pdf

Towards Transparent Systems: Semantic Characterization of Failure Modes

Aayush Bansal, Ali Farhadi, Devi Parikh

ECCV 2014

pdf

Failure Prediction in Vision Systems

Peng Zhang, Jiuling Wang, Ali Farhadi, Martial Hebert, Devi Parikh

CVPR 2014

pdf

Incorporating Scene Context and Object Layout into Appearance Modeling

Hamid Izadinia, Fereshteh Sadeghi, Ali Farhadi

CVPR 2014

pdf

Learning Everything about Anything: Webly-Supervised Visual Concept Learning

Santosh K Divvala, Ali Farhadi, Carlos Guestrin

CVPR 2014

pdf project page

2013

Adding Unlabeled Samples to Categories by Learned Attributes

Jonghyun Choi, Mohammad Rastegari, Ali Farhadi, Larry Davis

CVPR 2013

pdf

Object-Centric Anomaly Detection by Attribute-Based Reasoning

Babak Saleh, Ali Farhadi, Ahmed Elgammal

CVPR 2013

pdf

Multi-Attribute Queries: To Merge or Not to Merge?

Mohammad Rastegari, Ali Diba, Devi Parikh, Ali Farhadi

CVPR 2013

pdf

2012

Building a Dictionary of Image Fragments

Zicheng Liao, Ali Farhadi, Yang Wang, Ian Endres, David Forsyth

CVPR 2012

pdf

Semantic Understanding of Proefessional Soccer Commentaries

Hannaneh Hajishirzi, Mohammad Rastegari, Ali Farhadi, Jessica Hodgins

UAI 2012

pdf

Attribute Discovery via Predictable Discriminative Binary Codes

Mohammad Rastegari, Ali Farhadi, David Forsyth

ECCV 2012

pdf

2011

Using Classification to Protect the Integrity of Spectrum Measurements in White Space Networks

Omid Fatemieh, Ali Farhadi, Ranveer Chandra, Carl Gunter

NDSS 2011

pdf

Recognition Using Visual Phrases

Ali Farhadi, Amin Sadeghi

CVPR 2011 | Best Student Paper Award

pdf

Understanding Egocentric Activities

Alireza Fathi, Ali Farhadi, James Rehg

ICCV 2011

pdf

2010

Attribute-Centric Recognition for Cross-Category Generalization

Ali Farhadi, Ian Endres, Derek Hoiem

CVPR 2010

pdf

Every Picture Tells a Story: Generating Sentences for Images

Ali Farhadi, Mohsen Hejrati, Amin Sadeghi, Peter Young, Cyrus Rashtchian, Julia Hockenmaier, David Forsyth

ECCV 2010

pdf

2009

Describing Objects by their Attributes

Ali Farhadi, Ian Endres, Derek Hoiem, David Forsyth

CVPR 2009

pdf

Unlabeled Data Improves Word Prediction

Nicolas Loeff, Ali Farhadi, Ian Endres, David Forsyth

ICCV 2009

pdf

A Latent Model of Discriminative Aspect

Ali Farhadi, Mostafa Kamali, Ian Endres, David Forsyth

ICCV 2009

pdf

2008

Scene Discovery by Matrix Factorization

Nicolas Loeff, Ali Farhadi

ECCV 2008

pdf

Learning to Recognize Activities from a Wrong Viewpoint

Ali Farhadi, Mostafa Kamali

ECCV 2008

pdf

2007

Transfer Learning in Sign Language

Ali Farhadi, David Forsyth, Ryan White

CVPR 2007

pdf

2006

Aligning ASL for Statistical Translation Using a Discriminative Word Model

Ali Farhadi, David Forsyth

CVPR 2006

pdf