工具使用：网页爬取

概述

网页爬取是对网页内容的抽取和理解，为用户提供更智能、定制化的信息检索和分析功能。我们将用DataInterpreter实现这一场景需求。

从iclr-2024-statistics中获取标题含有关键词：multiagent和large language model的论文信息

bash

python examples/di/crawl_webpage.py

python examples/di/crawl_webpage.py

使用metagpt.tools.libs.web_scraping下的工具函数scrape_web_playwright来获取网页html和inner text。工具函数是对浏览器自动化测试库Playwright的封装。
使用BeautifulSoup获取id为paperlist的表格，并载入为pandas的DataFrame。
获取DataFrame的列名来定位标题列，匹配关键词multiagent ，large language model来过滤数据。并将过滤后的数据保存在filtered_papers.csv中。