Nodejs crawler for cnbeta.com, The source code is on Github.
- 用于爬取并保存cnbeta新闻内容及图片
- 从起始文章开始爬取,异步获取上一篇文章ID并循环爬取
- 支持爬取总条数限制,默认50条
- 支持301跳转追踪
- 仅用于Nodejs学习,无意冒犯
- 安装依赖:
npm install - 修改app.js中的
startId变量为起始文章ID - 运行抓取:
node app [limitNumber=50]
- 例如从该篇文章开始爬取
http://www.cnbeta.com/articles/tech/620719.htm,修改startId="620719"; - 执行爬取10条:
node app 10
