https://gravatar.cat.net/avatar/4e3d696743cae4996a8f4ef688430b7b?s=96&d=mp&r=g

未闻Code

0.0

给未闻Code打分

start start start start start

感谢您打了2

详情

全站展示位

标签: css | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。。。。

推荐

一日一技:轻松排雷,爬虫让gzip炸弹变成哑炮 | 谢乾坤 | Kingname

在昨天的文章《一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器》中,我讲到了后端如何使用gzip返回极高压缩率的文件,从而瞬间卡死爬虫。 大家都知道我的公众号风格,要得罪讨好就两边一起得罪讨好。昨天我帮了后端,今天我就帮帮爬虫。作为爬虫,如何避免踩中gzip炸弹? 最直接的方法,就是把你的爬虫隐藏起来,因为gzip炸弹只能在发现了爬虫以后使用,否则就会影响到正常用户。只要你的爬虫让网站无法发

标签: 直播 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

标签: 博弈论 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

新闻类网页正文通用抽取器(一)——项目介绍 | 谢乾坤 | Kingname

项目起源开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》) 这篇论文中描述的算法看起来简洁清晰,并且符合逻辑。但由于论文中只讲了算法原理,并没有具体的语言实现,所以我使用 Python 根据论文实现了这个抽取器。并分别使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非

心灵鸡汤

被优待的高考

文/蔚新敏

高考被优待,有的加分,有的优先录取,1994年我高考,优待睡竹躺椅。

高考前,邪门了,白天下雨晚上晴天,潮乎乎的热。我家有一个躺椅,竹板做的,躺上去,倍儿凉快,那是我爸的宝椅,平时谁都不能躺。7月6号晚上,我爸说:“明天你高考,今晚上躺椅归你,想躺到几点就几点。”我受宠若惊呀,这“小灶”开得别具一格,可能是我爸表达对我高考重视的唯一途径。

那天晚上,我和衣躺躺椅上看书,我爸把落地扇脑袋调成对着我呼呼吹,我是大暑天下河,凉快透了。

那么一躺就睡着了,一夜都没翻身。

早晨醒来,我的胳膊、脖子、腰、腿都好像坠着沙袋般发沉,各个关节都不活泛了,第一是让躺椅的竹板硌的,第二是电扇吹着了。我也不敢说,就那么去参加考试了。

我的座位在最后一排,我屁股上扎着蒺藜似的,坐不住凳子。腰酸,我就把腰挺得倍儿直溜,直着不舒服了我瘫桌上,过会儿再脖子拉长了腰板挺直了“眺望远方”……总之,人家都低头答题,我摇头晃脑可忙乎了,字都没写多少。

监考的老师走过来,也不问我怎么回事,给我脖子上抹了点风油精,以为我是被蚊子咬了呢。见我还不“老实”,估计是以为我偷看左右同学的答案,也不经过我同意,提溜起我的身体,直接把我的凳子往后拽,桌子往后挪。另外一个老师走过来,身体挡在我前面,恰好头顶一个吊扇,忽闪忽闪转,吹得我更难受。俩老师配合默契,瞅着我,意思是“这下你可凉快了”。我何尝不知道其实是防着我抄袭。那天的考试,我成了药店的抹布,苦透了。

第一天的考试不怎么好。可也不敢跟家里人说啊,吃罢晚饭,我爸说:“你辛苦了,今儿晚上,躺椅还归你,电扇还归你。”我赶紧溜到自己的床上,佯装睡着,待我爸叫我去睡躺椅,我假装睡得死死的,呼噜那个响哦,睡得那个沉哦,怎么叫都叫不醒。那天晚上,真热,我整夜大汗淋漓,第二天,浑身酸疼的感觉没了。

后来我就总结,把高考平常化,别给孩子太特殊的待遇,万一不适应,反而弄巧成拙。

父亲的考前忠告

文/李育蒙

说起高考,我不算成功者。第一年高考失利以后,我背上行囊南下深圳打工,在一家工厂喷油漆。工作了一个多月,父亲打来电话,问我想清楚没有是否复读?差不多同一时间,高三的班主任也打来电话劝我返校复读。因为家里条件不好,我还是非常犹豫。倒是父亲一再坚持要我上学,拗不过父亲,我辞掉了工作还是回学校复读。这其中一个最现实的动力是,班主任电话里和我说,已经向学校申请给我减免了费用。而我自己,也不并甘心就这样被“赶”进了城市。

因为经历了第一次的失败,那一年的复读时光,我学习更加认真,也懂得适当调整自己,成绩也一直稳定在年级前列。时间匆匆而过,转眼又到了高考季,因为是复读高考,总体感觉我比第一次稳当得多。不过因为是第二次高考,其实面临的压力比第一次更大。

让我没有想到的是,高考的前一天,居然在送考的人群里发现了父亲。远远看上去,父亲黑了很多,瘦了很多。父亲在考场外面租了个便宜的小旅馆,为了让我吃好,还特意从家里带了电饭锅,把从家里炒好的菜重新蒸热后让我吃。虽然高考期间的伙食比较好,但我觉得还是家里的饭菜更香。我知道,父亲是在用这样的方式,传递着家人对我的支持。

第二天早上,父亲送我到考场门口。他的话不多,只是拍了拍我的肩膀,说了句“放宽心态”。其实第一年高考更多的是败在了心态上。我看了看父亲,他的眼神里充满了信任和希望,走进考场,我心平静了很多,父亲的期许,于我而言更是一种力量。

每一堂考试出来和下一堂进考场前,我都能在人群中发现父亲。他依旧会轻轻地拍拍我的肩膀,那一拍,我觉得有无比的力量。

其实在我的印象里,父亲性格是比较孤僻的,生活的压力全落在他身上,他很少有情绪的表达。也正是这次高考,让我感到少有的父亲的温情。前前后后共三天,高考很快结束。虽然考得不是特别好,但我终究还是没有辜负父母的期望。

如今,多年过去了,我已经在城市立足,但我依然记得,高考那年,父亲拍拍我的肩膀,忠告我的那句“放宽心态”。虽然我知道有些路只能一个人走,但背后,依旧会有最可依靠的力量。

列表展示

主站展示位

标签: Scrapy | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:在macOS上查看任意软件的调试信息 | 谢乾坤 | Kingname

如果你使用macOS,想看上面某个软件使用什么技术开发的。那么你可以使用这个方法。它对普通人来说可能没什么用。如果你本来就做macOS软件开发,那么这个方法可能会很有用。 首先,我们知道macOS上面,安装的软件一般都放在/Applications/或者~/Applications文件夹里面。这里我以阿里网盘为例。

标签: xpath | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:setup.py里面的两个小技巧 | 谢乾坤 | Kingname

当你要自己发布一个Python包时,下面这两个小技巧可能对你有用。 pip安装后执行代码今天公众号粉丝群里面,有同学提问: 这个同学自己开发了一个Python包,这个包在使用pip安装时,会产生一些临时文件。他希望安装完成以后,能够自动清理这些临时文件。

一日一技:三分钟离线运行开源大模型 | 谢乾坤 | Kingname

经过一年多的发展,各种开源大模型现在已经相当不错了。国产的Qwen 1.5的生成效果已经能满足一些日常使用。 有一些同学可能之前一直在用网页版的ChatGPT、Kimi Chat、文心一言或者通义千问,那么你可能会遇到如下一些问题: 网络问题。例如ChatGPT需要特殊的网络才能访问。 审查问题。国产大模型会大量屏蔽关键字,有一些你觉得完全没有任何问题的回答,它会告诉你不符合法律规范,不能回答。

标签: Next.js | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:Scrapy最新版不兼容scrapy_redis的问题 | 谢乾坤 | Kingname

有不少同学在写爬虫时,会使用Scrapy + scrapy_redis实现分布式爬虫。不过scrapy_redis最近几年更新已经越来越少,有一种廉颇老矣的感觉。Scrapy的很多更新,scrapy_redis已经跟不上了。

一日一技:如何同时在多个分支写代码? | 谢乾坤 | Kingname

当我们在维护公司项目时,可能会遇到这样的场景:我正在开发一个新功能,突然需要修一个Bug。 这个时候,有些同学是这样做的: 12345678git add .git commit -m 'WIP'git checkout -b 新的分支名...新的代码修改完成并push以后...git checkout 老分支...继续开发... 更有一些经验的同学,可能会这样写: 1234

一日一技:HTML里面提取的JSON怎么解析不了? | 谢乾坤 | Kingname

我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示: 有时候请求URL拿到HTML的过程比较麻烦,有些同学习惯先把HTML复制到代码里面,先把解析的逻辑写好,然后再去开发请求HTML的代码。

再见2023,你好2024 | 谢乾坤 | Kingname

跟风来写个年终总结。 我记得在2023年元旦,我发了个语音,说我要开始搞播客。结果1年过去了,播客还是没个影子。今年不设这个目标了,免得又拖到明年。 2023年开头的前5个月,是2022年痛苦的延续。我真的太讨厌字节了。每一天都过得非常痛苦。公众号没有时间写,自己的代码也没有时间写,连学习的时间都没有。每天下班就只想躺下。连躺下都躺不安稳,飞书上面的消息一直在轰炸,动不动就开语音。开你妈个锤子的语

一日一技:如何同时使用多个GPT的API Key? | 谢乾坤 | Kingname

相信很多同学或多或少都在Python中使用过GPT API,通过Python安装openai库,来调用GPT模型。 OpenAI官方文档中给出了一个示例,如下图所示: 如果你只有一个API账号,那么你可能不觉得这样写有什么问题。但如果你想同时使用两个账号怎么办?

助力大语言模型训练,无压力爬取六百亿网页 | 谢乾坤 | Kingname

ChatGPT一炮而红,让国内很多公司开始做大语言模型。然后他们很快就遇到了第一个问题,训练数据怎么来。有些公司去买数据,有些公司招聘爬虫工程师。但如果现在才开发爬虫,那恐怕已经来不及了。 即使爬虫工程师非常厉害,可以破解任意反爬虫机制,可以让爬虫跑满网络带宽,可是要训练出GPT-3这种规模的大语言模型,这个数据并不是一天两天就能爬完的。并且,有很多老网站的数据,早就被删除了,爬虫想爬也爬不到。

标签: PDF | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:iOS抓包最简单方案 | 谢乾坤 | Kingname

写过爬虫的同学都知道,当我们想对App或者小程序进行抓包时,最常用的工具是Charles、Fiddler或者MimtProxy。但这些软件用起来非常复杂。特别是当你花了一两个小时把这些软件搞定的时候,别人只用了15分钟就已经手动把需要的数据抄写完成了。 我的需求如果你不是专业的爬虫开发者,那么大多数时候你的抓包需求都是很小的需求,手动操作也不是不能。这种时候,我们最需要的是一种简单快捷的,毫不费力

一日一技:方法不对,代码翻倍。Requests如何正确重试? | 谢乾坤 | Kingname

程序员是一个需要持续学习的群体,如果你发现你现在写的代码跟你5年前的代码没什么区别,说明你掉队了。 我们在做Python开发时,经常使用一些第三方库,这些库很多年来持续添加了新功能。但我发现很多同学在使用这些第三方库时,根本不会使用新的功能。他们的代码跟几年前没有任何区别。

一日一技:在Scrapy中如何拼接URL Query参数? | 谢乾坤 | Kingname

我们知道,在使用Requests发起GET请求时,可以通过params参数来传递URL参数,让Requests在背后帮你把URL拼接完整。例如下面这段代码: 12345678910111213# 实际需要请求的url参数为:#

一日一技:Python装饰器的执行顺序 | 谢乾坤 | Kingname

说到Python装饰器的执行顺序,有很多半吊子张口就来: 靠近函数名的装饰器先执行,远离函数名的装饰器后执行。 这种说法是不准确的。

一日一技:Prompt逆向工程,破解小红书文案生成器 | 谢乾坤 | Kingname

关注我公众号的很多同学都会写爬虫。但如果想把爬虫写得好,那一定要掌握一些逆向技术,对网页的JavaScript和安卓App进行逆向,从而突破签名或者绕过反爬虫限制。 最近半年,大语言模型异军突起,越来越多的公司基于GPT3.5、GPT-4或者其他大语言模型实现了各种高级功能。在使用大语言模型时,Prompt写得好不好,决定了最终的产出好不好。甚至因此产生了一门新的学问,叫做Prompt Engin

标签: LangChain | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

轻声低语,藏在光芒下的语音转文字模型Whisper | 谢乾坤 | Kingname

ChatGPT的模型gpt-3.5-turbo发布当天,OpenAI还开源了一个语音转文本的模型:Whisper。但由于ChatGPT本身太过于耀眼,很多人都忽略了Whisper的存在。 我当时也是这样,我一度以为,Whisper也是一个API,需要发送POST请求到OpenAI的服务器上,然后它传回识别的结果。所以我很长一段时间一直都没有试用过这个模型。 直到前几天,我看到有人在少数派上面发了一

博客寄语:

    这个博客已经连续更新超过8年。

实时播报:

博客号-学习成长

相信每一分耕耘都有每一分收获,致力帮助博客主所创作的博客能更快的被收录! 如果有其它需求,可联系下方邮箱。