宣传一下我的开源神经网络训练架构,请大家多多批评。

6 天前
 evegod

🌌 H2Q-MicroStream: Holographic Hamiltonian Quaternion Transformer

"智能不是记忆过去的所有细节,而是掌握生成未来的核心方程。"

"Intelligence is not about memorizing every detail of the past, but mastering the core equations that generate the future."


📖 项目简介 / Introduction

H2Q-MicroStream 是一个极具实验性的深度学习架构,旨在探索语言模型的物理动力学本质。与追求巨大参数量和超长上下文窗口的主流 Transformer 不同,本项目基于奥卡姆剃刀原则 (Occam's Razor) 和 **全息原理 (Holographic Principle)**,构建了一个极简、实时、且具有强物理约束的“思维内核”。

H2Q-MicroStream is a highly experimental deep learning architecture designed to explore the physical dynamics of language models. Unlike mainstream Transformers that chase massive parameter counts and infinite context windows, this project builds a minimalist, real-time, and physically constrained "Thinking Kernel" based on Occam's Razor and the Holographic Principle.

核心哲学 / Core Philosophy

  1. 思考内化 vs. 语言表达 (Internalization vs. Expression):

    • 我们认为,现有的 LLM 花费了太多算力去学习“如何像人一样说话”(语法糖),而忽略了“如何构建世界模型”(核心逻辑)。
    • H2Q 旨在构建一个高维全向的思维核心。它的中间状态可能人类难以直接理解(类似于脑电波),但它包含了对信息本质的拓扑映射。
    • We believe current LLMs spend too much compute on "speaking like a human" (syntax) rather than "modeling the world" (core logic). H2Q aims to build a high-dimensional, omnidirectional thinking kernel.
  2. 状态保持 vs. 历史回溯 (State-based vs. Retrieval-based):

    • 人类没有 128k 的上下文窗口。我们靠的是核心状态 (State) 的实时演化。
    • 本架构放弃了对历史数据的无限 Attention ,转而追求在极短视界( Micro-Horizon )内的哈密顿动力学演化
    • Humans don't utilize 128k context windows; we rely on the real-time evolution of a Core State. This architecture abandons infinite attention on history in favor of Hamiltonian dynamic evolution within a Micro-Horizon.
  3. 本质压缩 (Essence Compression):

    • 如果一个规律不能用极少的基底( Rank 8 )解释,那就是在死记硬背。
    • If a pattern cannot be explained with a minimal basis (Rank 8), it is rote memorization, not learning.

🚀 关键技术特性 / Key Technical Features

1. 🌌 四元数时空注意力 (Quaternion Spacetime Attention)

引入四元数 (Quaternion) 代数,将注意力机制从标量积升级为四维时空干涉

Moves attention from scalar products to 4D spacetime interference. Real parts represent energy/amplitude; Imaginary parts represent spin/phase, introducing nonlinear Phase Rotation Feedback to capture high-dimensional linguistic entanglement.

2. 📉 Rank-8 本质约束 (Rank-8 Essential Constraint)

模型权重不是静态矩阵,而是通过 Structure Bank 动态生成的。我们强制将 Rank 限制为 8

Weights are dynamically generated via a Structure Bank with a forced Rank of 8. This forces the model to abandon rote memorization and extract only the 8 most essential spacetime evolution patterns.

3. 🌊 Unicode 流式动力学 (Unicode Stream Dynamics)

摒弃了 BPE Tokenizer (如 Tiktoken ),直接使用 Unicode (ASCII/UTF-8) 编码。

Abandons BPE Tokenizers for direct Unicode (ASCII/UTF-8) encoding. establishing a universal physical interface. Uses parallel streaming to simulate continuous reading flow rather than random slicing.

4. ⚡️ 微批次高频更新 (Micro-Batch High-Freq Update)

Simulates biological high-frequency impulse learning. With a micro-batch of 24 and continuous updates, the parameters undergo continuous differential evolution in the manifold space.


🛠️ 安装与运行 / Installation & Usage

环境要求 / Requirements

快速开始 / Quick Start

  1. 克隆仓库 / Clone the repository

    git clone https://github.com/makai891124-prog/H2Q-Transformer.git
    cd H2Q-Transformer
    
  2. 安装依赖 / Install dependencies

    pip install torch numpy requests
    
  3. 运行训练 / Run training 无需手动下载数据,脚本会自动下载 WikiText-2 数据集并开始训练。 No need to manually download data; the script will automatically download WikiText-2 and start training.

    python main.py
    

📊 配置说明 / Configuration

main.py 中的 CONFIG 字典中调整参数。当前默认配置为 "H2Q-MicroStream" 模式:

CONFIG = {
    'dim': 768,            # 模型宽度 (GPT-2 Small level)
    'fixed_rank': 8,       # 🌟 核心参数:限制模型的"脑容量"以逼迫其思考
    'seq_len': 128,        # 微视界:只关注当下瞬间
    'batch_size': 24,      # 物理 Batch:极小,高频更新
    'depth': 12,           # 深度
    'axiom_lambda': 0.1,   # 正交性约束强度
    # ...
}

🔮 展望与未来 / Future Roadmap

目前的 H2Q 模型是一个纯粹的思维内核。它的输出可能看起来像“乱码”或极其抽象的方言,这是因为它正在展示内部的原始状态流

未来的开发计划包括:

  1. 解码器挂载 (Projector): 训练一个独立的“翻译器”模块,将 H2Q 的全息状态映射回人类自然语言。
  2. 多模态流 (Multimodal Stream): 由于采用 Unicode/Byte 接口,尝试直接输入音频或图像字节流。
  3. 边缘侧部署 (Edge Deployment): 利用 Rank-8 的极高压缩率,尝试在移动端运行全息内核。

The current H2Q model is a pure thinking kernel. Future plans include training a separate "Projector" to translate holographic states into human language, exploring multimodal byte streams, and edge deployment via high compression rates.


📜 许可证 / License

本项目采用 MIT License 开源。


致谢 / Acknowledgements

感谢所有探索几何深度学习、SSM (State Space Models) 以及对 Transformer 架构进行反思的研究者们。本项目的灵感来源于全息原理、哈密顿力学以及人类认知的本质。

1582 次点击
所在节点    分享创造
20 条回复
itechify
6 天前
不懂,看起来很高级,大受震撼
WuSiYu
6 天前
code/readme is cheap, show me the paper/evaluation
WuSiYu
6 天前
简单看了下,似乎没啥人,那我先来锐评下你的几个核心点吧:

1. 四元数这个点,看起来是加了一个数学约束,做了个权重复用。直接的结果是能省一些参数量,而能不能有什么神奇的能力提升效果目前还无从得知(你不能只是形而上学的解释,需要有更有说服力的推导或者实验);

2. rank-8 这个点,看起来就是把 lora 的 adapter 直接当原始模型用了(或者有点深度可分离卷积那种意思),但能否有性能和参数量比的收益很难说。另外 rank=8 这种量级,我很怀疑这到底能不能 work (毕竟这又不是 lora 微调)。你说正常 LLM 学东西是背书,那有没有一种可能就是你的模型压根就学不会呢?

3. 直接不用分析器是开历史倒车,这会浪费很多模型的能力去做本不需要它做的事,跟你最求小参数量的目标是相反的;

4. trivial
WuSiYu
6 天前
typo: 分析器 -> 分词器

另外你这满满民科的用词真的很难让人看下去
CatCode
6 天前
不用分词器用 UTF-8 这个不应该称为一个缺陷吧。现在已经有一些模型在尝试之间建立于 UTF-8 bytes 上。只是要多少参数和什么(细致的)框架来高效实现的问题
evegod
5 天前
@WuSiYu 训练代码是开源的,直接可以查看也可以运行一下看看效果,当然反向编译还没有做词表对其,我在尝试拉通模型核心能力极限,现在运行的数据集偏小。谢谢您的反馈,希望你有兴趣可以本地实验一下,消耗资源不多,我是用 4070ti super 跑的,实际使用显存控制不错。
evegod
5 天前
@WuSiYu 你说的对,code/readme is cheap, show me the paper/evaluation ,但是我相信你应该相信你自己亲眼所见的真实,其实你可以本地验证,这个架构是在本地训练的模型原型。
Pig930
5 天前
有更详细的 paper 一类的东西可以学习下吗
Xs0ul
5 天前
3 不就是远古时候的 Char-RNN
evegod
5 天前
@Pig930 您好,还没有 paper ,在升级版本到新的更大数据集上训练看效果中,下个版本也会开源给大家看,新的版本会写 paper 和相关日志给大家参考。
evegod
5 天前
@Xs0ul 这是我个人开源项目哦,至少本地化可运行,挺有参考意义的,代码是完全开源的,里面算法基本是显示使用的,你可以用 gemini 或者 gpt 看一下代码数学逻辑构成,大致正确,但是现在 gemini 针对其的调参方向是错的建议。这算是面向 Gemini 编程的我的一个里程碑。我从本科计算机专业毕业都 12 年没有写代码了,ps 上学时也没咋写过代码,代码都是跑的 matlab ,我也挺高兴现在有这样好的工具能学习帮助我编程跑通程序训练,挺好玩的。
Xs0ul
5 天前
看了你的 code 还有之前的帖子,你代码里只提到了 loss 下降,但这并不能说明模型有效,你至少得有些别的验证,比如 exact match ,edit distance ,perplexity 这些最基础的 metrics
evegod
5 天前
@Xs0ul 您好,这个项目本身现在看来有些像一个内核程序雏形,下一步的计划不是用它来做静态 ai 训练,目标是用它做即时运算和自持型 ai 的核心程序,有新版本和新东西做完了会和大家好好说的。计划时间不会太长,大概一周时间吧。
WuSiYu
5 天前
@evegod 有探索精神自己动手实践是好的,不过做学术不是这么搞的,AI 领域一天的新论文都有几百几千篇,你不能指望别人主动去花时间复现一个甚至还不完整的工作,还是先等你至少能放出一些效果或者评测结论后再说吧
evegod
5 天前
@WuSiYu 好的啊,有好的结果和你说。
c0xt30a
5 天前
都四维时空干涉了,OP 先写一下波函数吧。
pandaex
5 天前
咋说呢,先验知识得经过多个数据集评估检验,才能论证一个假设有效的组件有效,而不是说故事,最优化的启发性算法适合你,模型还是得一项一项的做消融对比实验,然后拉出来王对王比较。
pandaex
5 天前
仔细看了下这是个词表分类器,基本和 transformers 无关,类似于中早期年代的 charcnn ,真的和 @Xs0ul 说的一样,而且训练语料设计的很粗暴
evegod
4 天前
@WuSiYu 你好啊,新版本的项目地址您感兴趣可以看看 https://github.com/makai891124-prog/H2Q-MicroStream
evegod
4 天前
@pandaex 您后,您要是感兴趣的话我在这个项目中披露了具体的数学设计原因,也有其 log 测试说明确实涌现了英语语法的可识别内容,其核心设计在于把语言还原为声音的波形来看的话本身文字字符就是其对应的声波模式采样集,所以去直接学习字符可以识别到复杂数据集的固有波形结构从而反映射出来,相关的数学说明也在同一个项目中有,还请您自行判断,欢迎大家一起来尝试吧,我是用的 MIT 开源协议,是完全开源的。https://github.com/makai891124-prog/H2Q-MicroStream

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1179852

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX