https://gravatar.cat.net/avatar/4e3d696743cae4996a8f4ef688430b7b?s=96&d=mp&r=g

未闻Code

0.0

给未闻Code打分

start start start start start

感谢您打了2

详情

全站展示位

Python正则表达式中的re.S | 谢乾坤 | Kingname

在Python的正则表达式中,有一个参数为re.S。它表示“.”(不包含外侧双引号,下同)的作用扩展到整个字符串,包括“\n”。看如下代码:123456789import rea = '''asdfsafhellopass: 234455 worldafdsf '''b = re.findall('hello(.*?)world。。。

推荐

一日一技:轻松排雷,爬虫让gzip炸弹变成哑炮 | 谢乾坤 | Kingname

在昨天的文章《一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器》中,我讲到了后端如何使用gzip返回极高压缩率的文件,从而瞬间卡死爬虫。 大家都知道我的公众号风格,要得罪讨好就两边一起得罪讨好。昨天我帮了后端,今天我就帮帮爬虫。作为爬虫,如何避免踩中gzip炸弹? 最直接的方法,就是把你的爬虫隐藏起来,因为gzip炸弹只能在发现了爬虫以后使用,否则就会影响到正常用户。只要你的爬虫让网站无法发

标签: 直播 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

标签: 博弈论 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

新闻类网页正文通用抽取器(一)——项目介绍 | 谢乾坤 | Kingname

项目起源开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》) 这篇论文中描述的算法看起来简洁清晰,并且符合逻辑。但由于论文中只讲了算法原理,并没有具体的语言实现,所以我使用 Python 根据论文实现了这个抽取器。并分别使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非

心灵鸡汤

几回梦里又高考

文/汤云明

我的高考已经过去25年了,我也从青春年少变成了头发斑白,在中年里奔走的人了。

尽管时间如此的快,它可以掩埋和遗忘很多的东西。但高考,这个人生的十字路口却时常会在睡梦中把我惊醒,让我无法释怀。

1992年的那次高考我没有考好,最喜欢、最有实力的科目也没有发挥出正常的水平,所以,悲伤的离普通专科录取分数线少了无法抵达的5分。后来,尽管一些面向本地的师范专科生、定向委培生下降了10多分录取,但我当初什么志愿也没有报过,当然也就不可能被录取。这样,我几乎与大学失之交臂了。

其实,那时的高考还真是不容易,即使在县上最好的高中,一个班也就10多人能考上大学,其中还大部分是复读生,也就是说,本来三年制的高中几乎被变了四年制。要想考上大学,就要读第四年,应届毕业生中只有尖子生才能有机会拼得出来。

认命吧,就在我交了补习费进入下一年的班上复读时,转机又出现了。父亲给我找了个自费生大专学校。我害怕高中生活的没日没夜,更害怕再次落榜的无奈,所以就答应了父亲的好意安排。那时候刚刚开始尝试实行大学招生自费与公费双轨制,一般公费生叫全国统一招生,毕业后包分配工作,自费生就叫国家计划内自费生,按政策是“可工可干”。看各人的情况,毕业后可以和公费生一起由地方政府安排工作,也可以由父母所在单位内招,还可以是自谋职业。找个什么样的工作,就这要看各人的门路、造化和机遇了。

我所上的学校虽然不好,也没有名气,但我不敢辜负父母的期望,还是认真学习,几乎成了班上最刻苦的学生,也成了学校图书馆的“编外管理员”,管理员把图书阅览室的钥匙给我,让我可以随时出入,还顺便帮忙照看阅览室。所有学科成绩也还算优异。也就在这段较为苦闷的时间,我研读了很多关于文学和写作的书籍,开始了文学创作,上学期间,除了发表几十篇作品外,还有一点小稿费补贴生活。

两年以后,大专毕业,我的同学们,一些家在较为落后、边远地区的,由于本地每一年的大学毕业生少,自费生就可以和公费生一起由政府统一安排工作,当然,大多数是内招进入了父母的单位。我呢,父亲去找过所在单位和上级主管部门的领导,他们都不打算要,并以种种理由推辞。看着那些冰冷面孔,我也不想再为难年迈的父亲了,就和一家国有化工企业签订了入职协议。

九年后,我所在的国企改制成民营,又六年后,由于经济效益每况愈下,我咬牙辞职,并且招考成为了政府部门的合同制招聘人员。在企业的这十五年里,我当过车间设备维修工、生产操作工、党委宣传部宣传干事、厂报编辑,最后这几年又当生产管理人员。这些年,工作辛苦,生产生活环境又差,待遇低下,我的大好的青年时光就这样留在了这里。好在我一直坚持文学和新闻创作,让我在苦闷和无聊的生活中有了理想和精神寄托。这也成为我后来能顺利进入政府部门当办公室文员的优势和敲门砖。

也许,人的性格和命运难以改变,但我们可以通过自己的努力和奋斗去做一些争取,去创造改变命运的安排下的时间、机遇和空间。有几句话说得好:机遇只会留给有准备的人;就算有人想拉你一把,还得先要找到你的手在哪儿。

二十五年前的高考由于自己努力不够,发挥也不好,没能上个好大学,找个好工作,成为了我一辈子的痛。这些年来,我甚至于有些耿耿于怀。所以,时常会在梦里又进入了那个紧张的高中生活、考试中。好多次,我会在做题、考试或成绩中惊醒,等回过头来,那已经是过往烟云,今生今世不可能再重来、再企及。

擦干眼角的泪水,现实就在眼前。只有珍惜现在所拥有的一切,感恩在当下,好好的工作和生活每一天,关爱自己的亲人和家庭,修身养德,锻炼身体,做一个好人。这样,才对得起我流逝的青春时光和来过的高考岁月。

列表展示

主站展示位

分类: Gne | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:怎么中文也属于字母? | 谢乾坤 | Kingname

我最近在使用一个第三方库,叫做RapidFuzz。它有一个工具函数,叫做utils.default_process,在官方文档里面,是这样介绍的: 红色方框里面说,这个函数可以移除所有的非alphanumeric字符。如果我们使用翻译软件,会发现alphanumeric的意思是字母和数字。如下图所示: 因此,我想当然的觉得,这个功能函数,只会保留26个英文字母的大小写加上10个数字,一共62个字

标签: Gne | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:iOS下的开源免费消息推送服务 | 谢乾坤 | Kingname

我们在部署代码到线上以后,可能会需要在一些情况下给自己发报警通知。如果是公司的线上业务,一般会有公司内部的各种通知工具。 但如果是自己的个人服务,我们应该怎么推送消息呢?有些同学可能使用过叮叮或者飞书机器人,但是这些机器人要发送通知还需要拉个群,稍微有点麻烦。有些同学可能使用的是Telegram,但使用它需要梯子也不太方便。 如果你的手机是iPhone,那么你可以使用一个开源免费超级轻量级的消息推

一日一技:Scrapy最新版不兼容scrapy_redis的问题 | 谢乾坤 | Kingname

有不少同学在写爬虫时,会使用Scrapy + scrapy_redis实现分布式爬虫。不过scrapy_redis最近几年更新已经越来越少,有一种廉颇老矣的感觉。Scrapy的很多更新,scrapy_redis已经跟不上了。

标签: 消息推送 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:警告但不禁止,遗留代码的优化策略 | 谢乾坤 | Kingname

在之前的多篇文章中,我都反复告诫大家,不要滥用字典来传大量数据。因为当你的函数收到一个字典的时候,你根本不知道这个字典里面有哪些Key,你必须有一层一层往上看,找到所有尝试往字典里面添加新Key的地方,你才能知道它总共有哪些Key。 但是,在正常公司项目中,我们可能会需要维护一些历史遗留代码。代码规模大,函数调用层级非常深。并且之前的人已经使用字典来传递了大量的数据。 短时间内,我们没有办法直接把

一日一技:HTML里面提取的JSON怎么解析不了? | 谢乾坤 | Kingname

我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示: 有时候请求URL拿到HTML的过程比较麻烦,有些同学习惯先把HTML复制到代码里面,先把解析的逻辑写好,然后再去开发请求HTML的代码。

标签: 年终总结 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:分布式系统的低成本权限校验机制 | 谢乾坤 | Kingname

经常关注未闻Code的同学都知道,我做了一个叫做GNE的开源项目,它能够自动提取新闻类网页的正文。效果远远好于市面上其他的开源新闻提取工具。 大家可能不知道,GNE还有一个高级版,叫做GnePro。它可以让你输入URL就自动提取新闻的正文,提取的字段比GNE多得多。并且已经在8个国家13万个网站上做过测试,识别准确率100%。

一日一技:如何同时使用多个GPT的API Key? | 谢乾坤 | Kingname

相信很多同学或多或少都在Python中使用过GPT API,通过Python安装openai库,来调用GPT模型。 OpenAI官方文档中给出了一个示例,如下图所示: 如果你只有一个API账号,那么你可能不觉得这样写有什么问题。但如果你想同时使用两个账号怎么办?

老板让我加班怎么办?GPTs创建机器人实战 | 谢乾坤 | Kingname

前两天的OpenAI发布会,相信很多同学看完以后都热血沸腾。我之前一直使用的是ChatGPT的免费版本,看完这个发布会以后,立刻就充值了ChatGPT Plus,来试一试这些高级功能。 这两天GPTs功能上线了,短短三天时间,全球网友创建了几千个GPT机器人。我今天也来搞一个玩玩。 使用GPTs创建机器人非常简单,不需要懂任何编程知识,甚至不需要懂Prompt工程,你只需要跟着他的向导,一步一步描

标签: PDF | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

一日一技:Requests被网站识别怎么办? | 谢乾坤 | Kingname

现在有很多网站,已经能够通过JA3或者其他指纹信息,来识别你的请求是不是Requests发起的。这种情况下,你无论怎么改Headers还是代理,都没有任何意义。 我之前写过一篇文章:Python如何突破JA3,但方法非常复杂,很多初学者表示上手有难度。那么今天我来一个更简单的方法,只需要修改两行代码。并且不仅能过JA3,还能过Akamai。

一日一技:从PDF完美提取表格 | 谢乾坤 | Kingname

在之前很长一段时间,从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库,提取出来的表格都会变成纯文本,难以二次利用。 但现在好消息来了,专业处理PDF的第三方库PyMuPDF升级到了1.23.0,已经支持完美提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。

一日一技:如何对Python代码进行混淆 | 谢乾坤 | Kingname

目前市面上没有任何方法能够完全避免你的程序被人反编译。即便是3A游戏大作,发布出来没多久也会被人破解。现在只能做到增大反编译的难度,让程序相对无法那么快被破解。 我们知道,Python代码默认是公开的。当你要把一个Python项目给别人运行的时候,一般来说别人就能看到你的全部源代码。我们可以使用Cython、Nuitka对代码进行打包,编译成.so文件、.dll文件或者是可执行文件,从而在一定程度

一日一技:Python装饰器的执行顺序 | 谢乾坤 | Kingname

说到Python装饰器的执行顺序,有很多半吊子张口就来: 靠近函数名的装饰器先执行,远离函数名的装饰器后执行。 这种说法是不准确的。

一日一技:在LangChain中使用Azure OpenAI Embedding服务 | 谢乾坤 | Kingname

如果大家深入使用过ChatGPT的API,或者用过听说过AutoGPT,那么可能会知道,它背后所依赖的语言框架LangChain。LangChain能够让大语言模型具有访问互联网的能力,以及与其他各种API互动交互,甚至是执行系统命令的能力。 ChatGPT的prompt支持的Token数量是有限的,但是使用LangChain,能够很容易实现ChatPDF/ChatDoc的效果。即使一段

标签: 语音转文字 | 谢乾坤 | Kingname

高级数据挖掘工程师,《Python 爬虫开发 从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。 微软最有价值专家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。

轻声低语,藏在光芒下的语音转文字模型Whisper | 谢乾坤 | Kingname

ChatGPT的模型gpt-3.5-turbo发布当天,OpenAI还开源了一个语音转文本的模型:Whisper。但由于ChatGPT本身太过于耀眼,很多人都忽略了Whisper的存在。 我当时也是这样,我一度以为,Whisper也是一个API,需要发送POST请求到OpenAI的服务器上,然后它传回识别的结果。所以我很长一段时间一直都没有试用过这个模型。 直到前几天,我看到有人在少数派上面发了一

博客寄语:

    这个博客已经连续更新超过8年。

实时播报:

博客号-学习成长

相信每一分耕耘都有每一分收获,致力帮助博客主所创作的博客能更快的被收录! 如果有其它需求,可联系下方邮箱。