[논문] Agent Laboratory(1)

Agent Laboratory: Using LLM Agents as Research Assistants

Posted Feb 10, 2025 Updated Apr 1, 2025

By Cheong seolmo

16 min read

Agent Laboratory: Using LLM Agents as Research Assistants

LLM 기반 프레임워크 Agent Laboratory
- 과학적 발견 과정을 가속화하고 연구 비용을 절감하여 연구의 질 향상을 목적으로 함
- 자율적으로 전체 연구 과정을 수행
  - 연구자가 제공한 연구 아이디어를 바탕으로 (1) 문헌 조사, (2) 실험, (3) 연구 보고서 작성의 세 가지 단계를 거쳐 연구결과 도출 ⟶ 코드 저장소(repoisitory) 및 연구보고서를 포함한 종합적인 연구 산출물 생성
  - 각 단계에서 연구자가 피드백과 지침 제공 가능
Agent Laboratory의 배포와 연구자들의 평가로 도출된 결과
1. o1-preview 기반의 Agent Laboratory가 가장 우수한 연구 결과 생성
2. 생성된 머신러닝 코드가 기존 방법과 비교했을 때 최첨단 성능 달성
3. 각 단계에서 연구자의 피드백이 연구 결과의 품질을 크게 향상 시킴
4. 기존 자율 연구 방법과 비교하여 연구 비용 84% 절감
과학적 발견을 가속화하는데 기여할 것으로 기대

1. Introduction

연구 아이디어를 탐색하는 과정의 제한을 줄여 여러 개의 개념을 동시에 탐구, 결과적으로 과학적 발견의 가능성을 높이는 것이 목표
LLM을 활용한 연구 아이디어 생성 및 자동 논문 작성
- ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models
  - ResearchAgent 도입: 연구 아이디어, 방법론, 실험 설계 자동 생성 및 피드백을 통해 개선하는 시스템
  - peer reviewing agent 활용, human-aligned evaluation criteria 적용
- SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning
- The ai scientist:Towards fully automated open-ended scientific discovery
  - The AI Scientist 프레임워크 개발: 연구 아이디어 생성, 코드 작성 및 실험 수행, 논문 작성 및 자동 동료 평가
- The virtual lab: Ai agents design new sars-cov-2 nanobodies with experimental validation
- Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
  - LLM이 생성한 아이디어가 전문가보다 더 참신한 것으로 평가되었다는 연구 결과
  - 실형 가능성과 구현 세부사항에서 보이는 한계
⟶ LLM은 연구에서 보완적인 역할을 수행하는 것이 적절 ⟶ 이에 연구자가 자신의 연구 아이디어를 실현하는 데 도움을 줄 수 있는 자율적 에이전트 파이프라인 설계를 목적으로 둔다 ⟶ Agent Laboratory는 기존 접근법과 달리 연구 아이디어를 생성하기 보단 보조 역할을 수행하도록 설계
본 연구의 주요 기여 내용
1. Agent Laboratory: 머신러닝 연구 수행을 가속화하는 오픈 소스 LLM agent 프레임워크 ⟶ 연구자의 컴퓨팅 자원(CPU, GPU, 메모리) 및 모델 추론 비용에 따라 다양한 수준의 연산량을 설정할 수 있는 유연한 구조 제공
2. Agent Laboratory가 생성한 논문을 실험적 품질, 보고서 품질, 유용성 측면에서 평가한 결과
  - o1-preview 백엔드가 가장 유용한 것으로 평가
  - o1-mini가 가장 높은 실험적 품질 점수 기록
  - GPT-4o는 모든 항목에서 상대적으로 낮은 성과
3. NeurlPS 스타일 평가 결과
  - 백엔드 중 o1-preview가 가장 우수한 성능
  - 자동화 평가를 보완하기 위해 사람의 피드백 필수적
4. Agent Laboratory의 ‘Co-pilot’ 모드(사용자가 직접 연구 진행을 조율하는 모드)는 완전 자동 모드보다 높은 점수를 기록하나, 연구자의 의도와 모델 출력을 일치시키는 데 어려움이 존재
5. Co-pilot 기능의 전반적인 유용성과 사용성은 높게 평가
6. 논문당 비용이 GPT-4o 백엔드 기준으로 2.33달러, 연구 수행 비용 대폭 절감
7. MLE-Bench challenge에서 제안된 mle-solver가 state-of-art를 기록

Large language models

본 연구의 agent는 autoregressive LLM을 기반으로 구축됨
LLM은 Transfomer 아키텍처를 활용
- Attention Is All You Need
대표적인 모델
LLM은 번역, 요약, 추론과 같이 다양한 작업 수행, 사전 훈련 과정에서 학습한 패턴을 일반화하여 새로운 입력에 대해 대응하는 능력을 갖춤
- Language Models are Few-Shot Learners

LLM Agents

agent: LLM에 구조화된 프레임워크를 도입하여 자율적 및 반자율적 작업을 수행하도록 확장하는 방식의 LLM 기반 시스템
agent의 기법
- chain-of-thought prompting
  - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- iterative refinement
  - Reflexion: Language Agents with Verbal Reinforcement Learning
- self-improvement
  - Large Language Models Can Self-Improve
- external tool intergration
다양한 분야에 적용
embodied problem에 적용
LLM agent의 더 폭넓은 개요 ⟶ A Survey on Large Language Model based Autonomous Agents

Automated machine learning

ML agent의 성능 평가를 위해 Kaggle 플랫폼을 벤치마크로 활용
대표적인 AutoML 평가 프레임워크
- MLE-Bench MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering ⟶ 74개 챌린지를 벤치마크롤 활용
- DS-Bench DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? ⟶ 74개 챌린지를 벤치마크로 활용
- MLAgentBench MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation ⟶ 6개 챌린지를 벤치마크로 활용
ML solver: Kaggle 챌린지를 자동으로 해결
- AIDE AIDE: Human-Level Performance in Data Science Competitions ⟶ 머신러닝 코드 내 특징(feature) 구현, 버그 수정, 코드 리팩토링 자동화
- CodeActAgent(OpenHands) OpenHands: An Open Platform for AI Software Developers as Generalist Agents ⟶ ML 문제 해결을 위한 자동 코드 작성 및 최적화 수행
- ReseartchAgent(MLAB) MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation ⟶ MLAgentBench의 일부. 자동 모델링 및 최적화 수행
- Agent K Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level ⟶ Kaggle 챌린지의 URL을 입력하면 인간 수준의 성능으로 문제 해결

AI in Scientific Discovery

Mathematics: 새로운 수학적 패턴 및 정리를 발견하는 데 활용 Mathematical discoveries from program search with large language models
Material Science: 신소재 탐색 및 최적화 Scaling deep learning for materials discovery
Chemistry: 신약 개발 및 분자 구조 예측
- Simulating 500 million years of evolution with a language model
- Highly accurate protein structure prediction with AlphaFold
Algorithm Discovery: 최적화 및 자동 알고리즘 생성 Discovering faster matrix multiplication algorithms with reinforcement learning
Computational Biology: 유전체 분석 및 단백질 상호작용 예측 Automating Exploratory Proteomics Research via Language Models
⇒ 연구들은 AI 연구 수행의 도구로 활용하여, AI가 연구를 자율적으로 수행하기 보단 연구를 보조하는 역할로 발전하고 있다.

Code Generation: 연구 및 개발 과정에서 코드 자동 생성
- Evaluating Large Language Models Trained on Code
- CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis
End-to-End Software Development: 전체 소프트웨어 개발 자동화
Code Generation for Discovery: 새로운 연구 아이디어 탐색 및 구현
Research Question-Answering: 논문 및 연구 자료에 대한 질의응답 지원
Research Ideation: 새로운 연구 주제 및 가설 탐색
Automated Paper Reviewing: 논문 평가 및 피드백 자동화
Literature Search: 문헌 검색 및 분석
Predicting the Outcome of Experiments: 연구 실험의 가능성 및 결과 예측
Reasearch Ideation 분야에서의 상반된 연구 결과
- LLM이 연구자보다 더 참신한 아이디어 생성
  - Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
- LLM을 사용할 때 창의성 감소
  - Art or Artifice? Large Language Models and the False Promise of Creativity
- LLM이 생성하는 아이디어의 균질화(homogeneous effects) 경향
  - Homogenization Effects of Large Language Models on Human Creative Ideation
  - Shared Imagination: LLMs Hallucinate Alike
Human-AI collaboration에서 상반된 연구 결과
- AI와 협력할 때 더 참신한 아이디어 도출
  - How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment
  - How AI Processing Delays Foster Creativity: Exploring Research Question Co-Creation with an LLM-based Agent
- AI와 협업할 경우 창의성 감소
  - Does Writing with Language Models Reduce Content Diversity?
⇒ 현재 LLM의 한계를 고려했을 때, 연구에서 가장 강력한 시스템은 사람이 주도하는 아이디어 생성과 LLM 기반 워크플로우를 결합하는 방식이 될 것임을 시사사

LLMs for autonomous research

자율 연구를 위한 주요 LLM 시스템
- The Virtual Lab: AI Agents Design New SARS-CoV-2 Nanobodies with Experimental Validation
  - LLM 에이전트 팀이 연구자와 협력하여 연구 수행
  - 연구자가 고차원적 피드백 제공, SARS-CoV-2의 최근 변이에 대응하는 새로운 nanobody 결합체를 생성하는 성과 달성
- ChemCrow Augmenting large language models with chemistry tools & Coscientist Autonomous chemical research with large language models
  - 화학 분야에서 자율적인 연구 아이디어 생성 및 실험 수행 가능성 입증
- ResearchAgent ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models
  - 연구 아이디어 생성, 실험 설계, 반복적 개선(iterative refinement) 과정 자동화
  - human evaluation criteria에 맞춘 reviewing agents의 피드백을 반영하여 연구 품질 향상
- The AI Scientist The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
  - end-to-end scientific discovery 수행
  - 코드 작성, 실험 실행, automated peer review를 포함한 완전한 연구 프로세스 자동화
LLM 연구 아이디어 생성의 한계
- Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers 실현 가능성과 구현 세부 사항에서 부족
⇒ 현재 최적 연구 시스템은 LLM을 보조 도구로 활용하여 연구자가 더욱 효과적으로 아이디어를 구체화하고 실험을 진행하는 방식

AI, AI agent

paper

This post is licensed under CC BY 4.0 by the author.