博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python从字符串串中如何提取国家、地区或者城市信息?
阅读量:4171 次
发布时间:2019-05-26

本文共 490 字,大约阅读时间需要 1 分钟。

今天有位朋友请教,如何在不联网的情况下,从根据几个地址获取所在国家的ISO编码?

比如: 快递地址是西安市丈八六路12小区,国家ISO编码: CHN

我解决思路是: 

1、首先要从几个地址拼接在一起,然后从中提取信息,城市、省份/State或者国家 ,因为这个地址中不一定包含省和国家

2、获得信息之后去哪里找对应关系,比如如果是个城市,如何找到所属国家

第一个问题的解决办法我想到2种。就是通常说的,Named Entity Recognition. 

方法一,用python 工具包geotext,  。 我刚开始计划用geograpy,但是安装2次都失败了。后来我的geotext更简单。 

可以看到获取国家和城市了。 

方法二、用结巴分词,然后根据词性获取。

可以看到这个里面获取的数据有很大的误差。 

解决第二个问题的办法是:

我在看到mysql有word.sql, 这个文件中包括了世界上国家、城市、State关系。

,。

获取这个数据在本地本地建立数据库,然后用方案一获取的值去这个里面查询。

先从国家查,然后从state查询,最后从city查询。 

就可以获取到国家的ISO编码

 

 

转载地址:http://gekai.baihongyu.com/

你可能感兴趣的文章
.net实现.aspx页面自动加载.cs程序定义的变量并按照格式输出
查看>>
[Leetcode]最后一个单词的长度
查看>>
merges sort use c++
查看>>
插入排序用递归实现
查看>>
工作流审批平台-审批流程-指定审批部门
查看>>
商务智能-系统概述-数据图形方式
查看>>
软件项目管理系统-项目管理-模块定义-开发内容
查看>>
工作流审批平台-审批功能
查看>>
商务智能-基本方法-特征与角度
查看>>
软件项目管理系统-项目管理-模块定义-开发笔记
查看>>
工作流审批平台-业务申请-申请书一览
查看>>
商务智能-基本方法-数据钻取
查看>>
C++程序员技术需求规划(发展方向)
查看>>
嵌入式100题(017):malloc的底层实现
查看>>
嵌入式100题(018):在1G内存的计算机中能否malloc(1.2G)?为什么?
查看>>
嵌入式100题(019):指针与引用的相同和区别;如何相互转换?
查看>>
嵌入式100题(040):什么是三次握手
查看>>
嵌入式100题(037):Http1.1和Http1.0的区别
查看>>
嵌入式100题(038):HTTPS与HTTP的一些区别
查看>>
嵌入式100题(042):为什么服务端易受到SYN攻击?
查看>>