找回密码
 立即注册
搜索
查看: 671|回复: 7

关于合理使用爬虫等自动化行为的公告

[复制链接]

42

主题

585

回帖

2044

积分

管理员-厄尔尼诺

积分
2044
QQ
发表于 2024-7-29 12:21 | 显示全部楼层 |阅读模式
各位会员大家好:

7月24日和7月25日凌晨,服务器记录到2个不同ip的爬虫伪装成正常用户以超高速度爬取论坛信息,总计有约45万请求,导致了论坛服务器短时间内下线。TY_Board一直以来对论坛数据的使用保持一个开放的态度,对爬虫没有任何限制。不过,我们认为这样的关系应该是双向的,进行相关行为的用户应当保证其行为不会影响到论坛的正常运行。在此,我们想提醒各位相关用户对自己的使用行为负责,不做如伪装成正常用户等违反公序良俗的行为。

在未来,论坛存有的文本和图片数据量会越来越大,价值也会越来越高,届时肯定会吸引更多AI大语言模型开发团队进行获取,我们希望可以形成一个共赢的关系,使用者在不影响论坛正常运行的情况下爬取,而论坛也不对爬取做任何限制。对于有违反公序良俗的行为,尤其是严重影响到论坛正常用户的,我们在未来将视情况采取临时或永久封禁ip的方式处理。

感谢各位会员的支持与理解。

0

主题

14

回帖

630

积分

热带风暴

积分
630
发表于 2024-7-29 18:52 | 显示全部楼层
感觉可以用fail2ban来自动封禁频繁请求的IP

20

主题

2449

回帖

3439

积分

台风

上海地区气象爱好者

积分
3439
发表于 2024-7-29 21:34 | 显示全部楼层
45万请求……非常恐怖啊

正常论坛的日请求数大概多少呢?
破阵子·五月二十日望洋兴叹
学前聊观数值,全球各洋多旋。去年今日玛娃生,巅峰顶超撼风迷。曾想八六八。
而今极阔西太,惟有云团孱弱。风切遍洋皆死路,黑潮暖水何朝用?静待主风季。

42

主题

585

回帖

2044

积分

管理员-厄尔尼诺

积分
2044
QQ
 楼主| 发表于 2024-7-29 22:12 | 显示全部楼层
质子衰变 发表于 2024-7-29 18:52
感觉可以用fail2ban来自动封禁频繁请求的IP

可以,不过目前只发现过这一例,暂时没有必要,如果后面有再说

42

主题

585

回帖

2044

积分

管理员-厄尔尼诺

积分
2044
QQ
 楼主| 发表于 2024-7-29 22:13 | 显示全部楼层
9916-Bart 发表于 2024-7-29 21:34
45万请求……非常恐怖啊

正常论坛的日请求数大概多少呢?

可以看2024年TY_Board论坛主题与回复日总数统计
就最近1个月的数据来说,在每天15-100万之间浮动
就我们收集到的数据来看,大概75%左右是来自正常用户 20%来自正常爬虫 其他非正常的占了不到5%

13

主题

1064

回帖

1690

积分

强热带风暴

超顶超165kt

积分
1690
发表于 2024-7-30 22:58 | 显示全部楼层
爬虫是什么,有什么危害,请教王总
我深爱着的——风云

19

主题

533

回帖

1591

积分

强热带风暴

积分
1591
发表于 2024-7-31 23:24 | 显示全部楼层
一只布拉万 发表于 2024-7-30 22:58
爬虫是什么,有什么危害,请教王总

爬虫实际上就是Python,爬取数据那玩意,危害在于数据泄露和丢失,隐私得不到保障。

1

主题

59

回帖

817

积分

热带风暴

积分
817
发表于 2024-8-1 00:49 | 显示全部楼层
一只布拉万 发表于 2024-7-30 22:58
爬虫是什么,有什么危害,请教王总

利用软件(非浏览器类)、脚本等工具进行数据抓取的都叫爬虫。如果请求的并发数过大可以导致带宽的拥堵和服务器的高负载,造成网站无法正常访问。有个简单明了的案例就是余麻子的“压测网站”(虽然不知道是不是段子)。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|TY_Board论坛

GMT+8, 2024-12-4 01:43 , Processed in 0.042373 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表