https://gravatar.cat.net/avatar/4e3d696743cae4996a8f4ef688430b7b?s=96&d=mp&r=g

未闻Code

0.0
给未闻Code打分

感谢您打了2分

详情

全站展示位

标签: API | 谢乾坤 | Kingname

高级数据挖掘工程师，《Python 爬虫开发从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。微软最有价值专家 MVP，Python, Scrapy, MongoDB, Redis, Pandas, Golang。。。。

查看原文

心灵鸡汤

　　战国时期鲁国国相公仪休爱吃鱼，有人投其所好送鱼给他，公仪休不收。

　　问其原因，他说：“正因为喜欢吃鱼，所以不能理解，此刻我作为国相，能够用自我俸禄买鱼吃，如果此刻收了鱼而丢了官，谁又会送给我鱼呢所以我不能理解啊。”

　　公仪休“好鱼而不贪鱼”，实乃其深知“贪赃、枉法、丢官、受惩罚”之间的内在联系，愿每位领导干部任前任中都时刻不忘认真算一算政治帐、经济帐、家庭帐。

列表展示

主站展示位

标签: xpath | 谢乾坤 | Kingname

1 2024-05-06 19:08 查看原文

一日一技：setup.py里面的两个小技巧 | 谢乾坤 | Kingname

当你要自己发布一个Python包时，下面这两个小技巧可能对你有用。 pip安装后执行代码今天公众号粉丝群里面，有同学提问：这个同学自己开发了一个Python包，这个包在使用pip安装时，会产生一些临时文件。他希望安装完成以后，能够自动清理这些临时文件。

1 2024-04-11 02:39 查看原文

标签: Gne | 谢乾坤 | Kingname

查看原文

一日一技：Python工具脚本如何调用外层模块 | 谢乾坤 | Kingname

我三年前写过一篇文章：《小问题大隐患：如何正确设置 Python 项目的入口文件？》。讲到Python项目应该如何正确组织代码结构。入口文件应该在最外面，调用关系应该是从外向内调用。而不要学Java，从一个很深层的文件夹里面往外调用。不过我在这篇文章的最后，也提到了一种例外情况，那就是工具脚本不受这个规则的限制。如下图所示。

查看原文

拒绝成为这样的程序员 | 谢乾坤 | Kingname

产品经理这两天在跟我抱怨他们公司的一个码农。听的我火冒三丈，差点把跟了我十多年的搪瓷水杯砸烂。正好在知识星球和微信群里面，有不少同学跟我咨询程序员的职业发展以及怎么应对三十岁危机。借此机会，我准备用几篇文章来讲讲自己的经验和个人的观点。

1 2024-12-23 03:57 查看原文

一日一技：next.js如何正确处理跨域问题？ | 谢乾坤 | Kingname

我以前一直使用Vue来写前端。去年下半年接手了一个基于React + Next.js的项目，于是顺带学习了一下Next.js。由于Next.js的特点，这个项目的前后端是放在一起的。一开始没什么问题，看了半天文档就上手了。上周我们需要在另一个网页项目中，调用这个项目的后端接口，于是就需要处理跨域请求的问题。但我发现按照网上的方法，跨域问题依然存在。这个问题浪费了我不少时间，好在最后终于找到了原因

查看原文

一日一测：Bright Data的海外代理测试 | 谢乾坤 | Kingname

上周的公众号文章提到了Bright Data提供的代理服务。没想到他们的运营同学竟然找上了门，问我能不能帮他们做一个评测。我之前使用Bright Data的代理，是因为突然有一天我的HuggingFace爬虫挂了。比较奇怪的是，这个爬虫在我电脑上始终正常运行，但一放到服务器上就请求失败。联想到HuggingFace被封了，而这个爬虫之前一直使用的国内代理供应商，那么原因就很明显了。因为我的电脑是

1 2024-10-17 03:09 查看原文

一日一技：不走常规路线，列表页1秒搞定 | 谢乾坤 | Kingname

最近遇到一个需求，需要抓取Docusaurus上面的全部文档。如下图所示：抓文档的正文非常简单，使用GNE高级版，只要有URL直接就能抓取下来，如下图所示：但现在的问题是，我怎么获取到每一篇文档的URL？

1 2024-12-06 18:49 查看原文

一日一技：如何同时在多个分支写代码？ | 谢乾坤 | Kingname

当我们在维护公司项目时，可能会遇到这样的场景：我正在开发一个新功能，突然需要修一个Bug。这个时候，有些同学是这样做的： 12345678git add .git commit -m 'WIP'git checkout -b 新的分支名...新的代码修改完成并push以后...git checkout 老分支...继续开发... 更有一些经验的同学，可能会这样写： 1234

1 2024-12-17 14:51 查看原文

标签: scrapy_redis | 谢乾坤 | Kingname

1 2024-12-14 12:14 查看原文

一日一技：HTML里面提取的JSON怎么解析不了？ | 谢乾坤 | Kingname

我们在开发爬虫的过程中，经常发现有一些网站，会直接把数据以JSON的形式，通过<script>标签放到页面源代码中。如下图所示：有时候请求URL拿到HTML的过程比较麻烦，有些同学习惯先把HTML复制到代码里面，先把解析的逻辑写好，然后再去开发请求HTML的代码。

查看原文

再见2023，你好2024 | 谢乾坤 | Kingname

跟风来写个年终总结。我记得在2023年元旦，我发了个语音，说我要开始搞播客。结果1年过去了，播客还是没个影子。今年不设这个目标了，免得又拖到明年。 2023年开头的前5个月，是2022年痛苦的延续。我真的太讨厌字节了。每一天都过得非常痛苦。公众号没有时间写，自己的代码也没有时间写，连学习的时间都没有。每天下班就只想躺下。连躺下都躺不安稳，飞书上面的消息一直在轰炸，动不动就开语音。开你妈个锤子的语

查看原文

一日一技：如何同时使用多个GPT的API Key？ | 谢乾坤 | Kingname

相信很多同学或多或少都在Python中使用过GPT API，通过Python安装openai库，来调用GPT模型。 OpenAI官方文档中给出了一个示例，如下图所示：如果你只有一个API账号，那么你可能不觉得这样写有什么问题。但如果你想同时使用两个账号怎么办？

1 2024-10-20 17:11 查看原文

GnePro：文章类通用爬虫接口 | 谢乾坤 | Kingname

GnePro是开源项目GNE的付费版，能够实现如下功能：输入任意文章页面的URL，返回标题/作者/正文/发布时间/图片/面包屑等一系列信息支持异步加载文章页提取支持上传自定义的HTML代码提取正文支持自动检测网页编码支持自动提取网页全部URL 在8个国家13万个新闻类网站进行测试,准确率高达90%

1 2024-10-20 19:18 查看原文

老板让我加班怎么办？GPTs创建机器人实战 | 谢乾坤 | Kingname

前两天的OpenAI发布会，相信很多同学看完以后都热血沸腾。我之前一直使用的是ChatGPT的免费版本，看完这个发布会以后，立刻就充值了ChatGPT Plus，来试一试这些高级功能。这两天GPTs功能上线了，短短三天时间，全球网友创建了几千个GPT机器人。我今天也来搞一个玩玩。使用GPTs创建机器人非常简单，不需要懂任何编程知识，甚至不需要懂Prompt工程，你只需要跟着他的向导，一步一步描

1 2024-12-12 02:50 查看原文

一日一技：从PDF完美提取表格 | 谢乾坤 | Kingname

在之前很长一段时间，从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库，提取出来的表格都会变成纯文本，难以二次利用。但现在好消息来了，专业处理PDF的第三方库PyMuPDF升级到了1.23.0，已经支持完美提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。

查看原文

一日一技：从PDF完美提取表格 | 谢乾坤 | Kingname

1 2024-12-20 21:08 查看原文

一日一技：在LangChain中使用Azure OpenAI Embedding服务 | 谢乾坤 | Kingname

如果大家深入使用过ChatGPT的API，或者用过听说过AutoGPT，那么可能会知道，它背后所依赖的语言框架LangChain。LangChain能够让大语言模型具有访问互联网的能力，以及与其他各种API互动交互，甚至是执行系统命令的能力。 ChatGPT的prompt支持的Token数量是有限的，但是使用LangChain，能够很容易实现ChatPDF/ChatDoc的效果。即使一段

查看原文

标签: 语音转文字 | 谢乾坤 | Kingname

查看原文

标签: 人工智能 | 谢乾坤 | Kingname

1 2024-10-19 09:15 查看原文

博客寄语：

这个博客已经连续更新超过8年。

实时播报：

详情

标签: API | 谢乾坤 | Kingname

推荐

心灵鸡汤

列表展示