<span data-immersive-translate-walked="76cbb352-d3a4-4d11-ba37-29fa88b83f4f">支持小红书、抖音、快手、B站和微博等平台的</span><span class="r-b88u0q" data-immersive-translate-walked="76cbb352-d3a4-4d11-ba37-29fa88b83f4f">视频、图片、评论、点赞和转发等信息的抓取。</span> <span data-immersive-translate-walked="76cbb352-d3a4-4d11-ba37-29fa88b83f4f">可以指定特定数据抓取、集成了IP代理池功能,防止被封、支持多种格式保存抓取数据...</span> 这个项目的核心在于使用playwright技术搭桥,保留登录成功后的浏览器环境,通过执行JavaScript表达式来获取一些加密参数,从而降低了逆向工程的难度。 <h3>主要功能包括:</h3> <ol> <li><strong>多平台内容抓取</strong>:支持对小红书、抖音、快手、B站和微博等多个热门社交媒体平台的内容进行抓取。能够获取的内容类型包括视频、图片、评论、点赞数和转发数等。</li> <li><strong>多种登录方式</strong>:提供了Cookie登录和二维码登录等多种方式,用户可以根据自己的需求和平台的具体要求选择最适合的登录方法。</li> <li><strong>指定数据抓取</strong>:允许用户通过指定创作者的主页、关键词搜索或特定的视频/帖子ID来获取数据,提高了数据抓取的针对性和效率。</li> <li><strong>数据保存</strong>:支持将抓取到的数据保存到多种格式和存储介质中,包括关系型数据库(如MySQL、PgSQL等)、CSV文件和JSON文件,便于后续的数据分析和处理。</li> <li><strong>IP代理池支持</strong>:集成了IP代理池功能,帮助用户解决IP被封的问题,提高爬虫的稳定性和抓取效率。</li> <li><strong>滑块验证码处理</strong>:对于部分平台特有的滑块验证码验证方式,提供了相应的处理机制,确保爬虫能够正常登录和抓取数据。</li> </ol> GitHub:<a href="https://github.com/NanmiCoder/MediaCrawler" target="_blank" rel="noopener">https://github.com/NanmiCoder/MediaCrawler</a>